html - 怎样才能在网页中画一条竖线呢？

ruby - Jekyll - 生成 JSON 文件和 HTML 文件

我想让Jekyll为每个页面和帖子创建一个HTML文件和一个JSON文件。这是为了提供我的Jekyll博客的JSONAPI——例如可以在/posts/2012/01/01/my-post.html或/posts/2012/01/01/my-post.json访问帖子有谁知道是否有Jekyll插件，或者我将如何开始编写这样的插件来并排生成两组文件？最佳答案我也在寻找类似的东西，所以我学习了一些ruby并制作了一个脚本来生成Jekyll博客文章的JSON表示。我仍在努力，但大部分都在那里。我将其与Gruntjs、Sass、Bac

ruby - Ruby 中可用的网页抓取 gem /工具

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion我正尝试在我正在处理的Ruby脚本中抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合值(value)投资理念。我想抓取的一些页面示例是:http://finance.yahoo.com/q/pr?s=SPY+Profilehttp://finance.yahoo.com/q/hl?s=SPY+Holdingshttp://www.marketwatch.com/tools/mut

ruby section class noreferrer html-parsing lxml scrape

ruby - 将 HTML 转换为纯文本(包含 <br>s)

是否可以使用Nokogiri将HTML转换为纯文本？我还想包括标签。例如，给定这个HTML:alamakotaikottoidiota我想要这个输出:alamakotaikottoidiota当我调用Nokogiri::HTML(my_html).text它不包括标签:alamakotaikottoidiota 最佳答案我没有编写复杂的正则表达式，而是使用了Nokogiri。工作解决方案(K.I.S.S!):defstrip_html(str)document=Nokogiri::HTML.parse(str)document.c

amp ruby code section pre nokogiri

ruby - 使用 Mechanize 读取本地 HTML 文件

我正在构建一个爬虫，我知道如何使用rubymechanize使用以下代码从网上读取页面:require'mechanize'agent=Mechanize.newagent.get"http://google.com"但是我可以使用Mechanize从文件系统中读取HTML文件吗？怎么办？最佳答案仅使用file://协议(protocol)对我来说效果很好:html_dir=File.dirname(__FILE__)page=agent.get("file:///#{html_dir}/example-file.html"

Mechanize ruby section

ruby - 我如何使用 .html.erb 作为 Sinatra View 的文件扩展名？

如果我有以下Sinatra代码:get'/hi'doerb:helloend如果我有一个名为views/hello.erb的文件，这会很好用。但是，如果我有一个名为views/hello.html.erb的文件，Sinatra找不到该文件并给我一个错误。我如何告诉Sinatra我希望它查找.html.erb作为有效的.erb扩展名？最佳答案 Sinatra使用Tilt呈现其模板，并将扩展与其相关联。您所要做的就是告诉Tilt它应该使用ERB来呈现该扩展:Tilt.registerTilt::ERBTemplate,'html.er

扩展名 Sinatra code erb hello ruby

ruby - 如何在 selenium-webdriver 中获取网页的当前 URL

我正在使用seleniumwebdriver在浏览器上做一些自动化。现在需要获取当前在浏览器中打开的页面的当前url。我写了下面的代码但是给我错误:element=driver.find_element:name=>"btnSearch"element.clickall_table_data=driver.find_elements(:tag_name,"td")all_table_data.eachdo|td|putstd.textendprintdriver.get_url但它给我一个错误:filedownload.rb:30:in`':undefinedmethod`get_ur

selenium-webdriver 何在 section selenium code ruby ruby-1.9.3

ruby-on-rails - 从 HTML 页面中删除所有 JavaScript

我试过使用Sanitizegem清理包含网站HTML的字符串。它只删除了标记，而不是脚本标记内的JavaScript。我可以使用什么从页面中删除JavaScript？最佳答案 require'open-uri'#includedwithRuby;onlyneededtoloadHTMLfromaURLrequire'nokogiri'#geminstallnokogirireadmoreathttp://nokogiri.orghtml=open('http://stackoverflow.com')#GettheHTMLsour

ruby-on-rails JavaScript section script ruby ruby-on-rails-3.1 screen-scraping nokogiri

ruby - 我如何在 Nokogiri 中获取下一个 HTML 元素？

假设我的HTML文档是这样的:NewsSomeinterestingnewshereSportsBaseballisfun!我可以使用以下代码获取标题div:require'rubygems'require'nokogiri'require'open-uri'url="mypage.html"doc=Nokogiri::HTML(open(url))doc.css(".headline").eachdo|item|putsitem.textend但我如何访问以下p标签中的内容，以便News与Someinterestingnewshere等相关？最佳答案

何在 Nokogiri code section item ruby

ruby-on-rails - 从 Ruby 中的哈希数组生成 HTML 表

从哈希数组生成HTML表格的最佳方法是什么(最好是gem，但如果需要，也可以是代码片段)？例如，这个哈希数组:[{"col1"=>"v1","col2"=>"v2"},{"col1"=>"v3","col2"=>"v4"}]应该产生这个表:col1col2v1v2v3v4 最佳答案 #modifiedfromHarish'sanswer,totakecareofsparsehashes:require'builder'defhasharray_to_html(hashArray)#collectallhashkeys,evenift

ruby-on-rails rails gt section lt ruby html-table

ruby - 使用 Ruby 获取网页的所有链接

我正在尝试使用Ruby检索网页的每个外部链接。我将String.scan与此正则表达式一起使用:/href="https?:[^"]*|href='https?:[^']*/i然后，我可以使用gsub删除href部分:str.gsub(/href=['"]/)这工作正常，但我不确定它在性能方面是否有效。这可以使用还是我应该使用更具体的解析器(例如nokogiri)？哪种方式更好？谢谢! 最佳答案使用正则表达式对于快速而肮脏的脚本来说很好，但Nokogiri使用起来非常简单:require'nokogiri'require'open

ruby href section code regex string nokogiri