解析HTML_草庐IT

Ruby - 从文本或 html 解析电子邮件

很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visitthehelpcenter.关闭9年前。据我了解，在给定文档中扫描电子邮件时，Regex并不是最好的选择。我想知道是否有其他选择？或者我不知道的一些最佳实践方式？

ruby-on-rails - 如何使用 Nokogiri 解析 HTML 表格？

我正在尝试解析一个表，但我不知道如何从中保存数据。我想将每一行中的数据保存为:['Rawname1',2,094,0,017,0,098,0,113,0,452]示例表是:html=TablenameColumnname1Columnname2Columnname3Columnname4Columnname5Rawname12,0940,0170,0980,1130,452...Rawname52,0940,0170,0980,1130,452EOT我的爬虫代码是:doc=Nokogiri::HTML(open(html),nil,'UTF-8')tables=doc.css('div

ruby-on-rails Nokogiri gt lt 34 ruby html-parsing

ruby - Jekyll - 生成 JSON 文件和 HTML 文件

我想让Jekyll为每个页面和帖子创建一个HTML文件和一个JSON文件。这是为了提供我的Jekyll博客的JSONAPI——例如可以在/posts/2012/01/01/my-post.html或/posts/2012/01/01/my-post.json访问帖子有谁知道是否有Jekyll插件，或者我将如何开始编写这样的插件来并排生成两组文件？最佳答案我也在寻找类似的东西，所以我学习了一些ruby并制作了一个脚本来生成Jekyll博客文章的JSON表示。我仍在努力，但大部分都在那里。我将其与Gruntjs、Sass、Bac

Jekyll ruby section path json api

ruby-on-rails - 如何只解析 CSV 文件的第一行？

如何只解析CSV文件的第一行？我想确保文件中提供了所有适当的列，但不想处理整个文件。最佳答案一个更好的方法是简单地使用内置的Enumerable支持Ruby'sStandardLibraryCSVparser:headers=CSV.open('file.csv','r'){|csv|csv.first}该block将导致文件自动关闭，调用将返回已解析header的数组。关于ruby-on-rails-如何只解析CSV文件的第一行？，我们在StackOverflow上找到一个类似的

ruby-on-rails rails section noreferrer noopener ruby

ruby-on-rails - 为什么我不能解析保存到 Ruby 变量中的日期字符串？

我需要在我的Rails应用程序中运行以下代码:ActiveSupport::TimeZone["CentralTime(US&Canada)"].parse(game.date).utc.to_date.strftime("%_m/%d")[1..-1]游戏在哪里@games.eachdo|game|但这不起作用，我收到错误，TypeError:没有将ActiveSupport::TimeWithZone隐式转换为String。但是，我可以运行:ActiveSupport::TimeZone["CentralTime(US&Canada)"].parse("2014-04-1112am

ruby-on-rails rails code 34 section ruby activesupport

ruby - 将 HTML 转换为纯文本(包含 <br>s)

是否可以使用Nokogiri将HTML转换为纯文本？我还想包括标签。例如，给定这个HTML:alamakotaikottoidiota我想要这个输出:alamakotaikottoidiota当我调用Nokogiri::HTML(my_html).text它不包括标签:alamakotaikottoidiota 最佳答案我没有编写复杂的正则表达式，而是使用了Nokogiri。工作解决方案(K.I.S.S!):defstrip_html(str)document=Nokogiri::HTML.parse(str)document.c

amp ruby code section pre nokogiri

ruby - 使用 Mechanize 读取本地 HTML 文件

我正在构建一个爬虫，我知道如何使用rubymechanize使用以下代码从网上读取页面:require'mechanize'agent=Mechanize.newagent.get"http://google.com"但是我可以使用Mechanize从文件系统中读取HTML文件吗？怎么办？最佳答案仅使用file://协议(protocol)对我来说效果很好:html_dir=File.dirname(__FILE__)page=agent.get("file:///#{html_dir}/example-file.html"

Mechanize ruby section

ruby - 我如何使用 .html.erb 作为 Sinatra View 的文件扩展名？

如果我有以下Sinatra代码:get'/hi'doerb:helloend如果我有一个名为views/hello.erb的文件，这会很好用。但是，如果我有一个名为views/hello.html.erb的文件，Sinatra找不到该文件并给我一个错误。我如何告诉Sinatra我希望它查找.html.erb作为有效的.erb扩展名？最佳答案 Sinatra使用Tilt呈现其模板，并将扩展与其相关联。您所要做的就是告诉Tilt它应该使用ERB来呈现该扩展:Tilt.registerTilt::ERBTemplate,'html.er

扩展名 Sinatra code erb hello ruby

ruby-on-rails - 解析 'ul' 和 'ol' 标签

我必须处理ul、ol和li标签的深层嵌套。我需要提供与我们在浏览器中提供的View相同的View。我想在pdf文件中实现以下示例:text="OneTwoInnerOneinnerTwoheyhiiiiiiiiiwhyhiiiiiiiiianiketsupthereheyThreeIntroductionIntroductionDescriptionObservationResultsSummaryIntroductionDescriptionObservationResultsSummaryOverview"我必须用虾来完成我的任务。但是大虾不支持HTML标签。所以，我想出了一个使用

amp 39 gt deepness lt ruby-on-rails ruby algorithm ruby-on-rails-4 nokogiri

ruby-on-rails - 解析 URL 以提取域的最佳方法是什么？

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:RubycodetoextracthostfromURLstring我发现这个模块叫做URI可以解析url。(我是ruby的新手。在这种情况下，“模块”是否与“库”同义？)然后您可以提取主机名。uri=URI.parse("http://www.ruby-lang.org/")...puri.host#=>"www.ruby-lang.org"据此，我想您可以删除“www.”并使用正则表达式保留其他子域。有没有人有更直接的替代方法或者这种方法是否正确？

ruby-on-rails rails section notice ruby regex parsing