草庐IT

Nokogiri

全部标签

ruby-on-rails - Nokogiri 是针对 LibXML 版本 2.7.7 构建的,但已动态加载 2.7.3

在Rails3中,我注意到每次调用框架时,无论是从rake、railsserver还是其他任何地方,我都会收到以下警告:NokogiriwasbuiltagainstLibXMLversion2.7.7,buthasdynamicallyloaded2.7.3在Google上搜索会得到一些博客文章,所有这些文章都建议使用显式库和包含路径重建Nokogiri。例如:http://mrflip.github.com/2009-08/nokogiri-hates-libxml2-on-osx.html但是,这并没有解决我的问题。输入nokogiri-v给我这个:---warnings:[]r

ruby - 将 HTML 转换为纯文本(包含 <br>s)

是否可以使用Nokogiri将HTML转换为纯文本?我还想包括标签。例如,给定这个HTML:alamakotaikottoidiota我想要这个输出:alamakotaikottoidiota当我调用Nokogiri::HTML(my_html).text它不包括标签:alamakotaikottoidiota 最佳答案 我没有编写复杂的正则表达式,而是使用了Nokogiri。工作解决方案(K.I.S.S!):defstrip_html(str)document=Nokogiri::HTML.parse(str)document.c

ruby - 由于带有特殊字符的 mini_magick 文件导致 watir gem 安装错误

我一直在尝试为ruby​​2安装watirgem。我完全按照watir书籍安装说明进行操作,但是一旦watir安装到达mini_magickgem,它就会出现此错误错误:执行gem时...(Errno::EINVAL)无效参数-C:/Ruby200/lib/ruby/gems/2.0.0/gems/mini_magick-3.6.0/test/文件/特别!"字符'.gif有人知道如何解决这个问题吗?我注意到nokogiri无法从ASCII转换为ITF-8的行为有点奇怪。也许这与它有关。谢谢大家 最佳答案 我遇到了同样的问题,这是我的

ruby - 在 ubuntu 14.0.4 (Ruby 1.8.7) 中安装 nokogiri 时出错

我正在尝试在安装了Ruby1.8.7的Ubuntu14.0.4中安装bundle(捆绑安装)。它无法安装bundle并显示错误:Anerroroccurredwhileinstallingnokogiri(1.4.7),andBundlercannotcontinue.Makesurethat`geminstallnokogiri-v'1.4.7'`succeedsbeforebundling.所以现在我尝试获取nokogiri1.4.7,但显示失败$sudogeminstallnokogiri-v'1.4.7'ERROR:Errorinstallingnokogiri:ERROR:F

ruby - 在 Nokogiri 中,如何找到文档中某个节点之前的所有节点?

使用Rails5、Ruby2.4。如果我使用Nokogiri解析定位了一个节点,我将如何找到在我找到的节点之前出现但不包含该找到的节点的所有节点?也就是说,假设我的文档是HelloHowdyNext然后我运行一个查询node=doc.search('//*[contains(@class,"def")]').first我如何找到所有前面的节点(不包括我刚刚确定的节点)?我期望的节点是HelloHowdy 最佳答案 您只需要遍历叶节点,直到到达目标节点。#Nodetoexcludenode=doc.search('//*[contai

ruby-on-rails - 解析 'ul' 和 'ol' 标签

我必须处理ul、ol和li标签的深层嵌套。我需要提供与我们在浏览器中提供的View相同的View。我想在pdf文件中实现以下示例:text="OneTwoInnerOneinnerTwoheyhiiiiiiiiiwhyhiiiiiiiiianiketsupthereheyThreeIntroductionIntroductionDescriptionObservationResultsSummaryIntroductionDescriptionObservationResultsSummaryOverview"我必须用虾来完成我的任务。但是大虾不支持HTML标签。所以,我想出了一个使用

ruby-on-rails - 从 HTML 页面中删除所有 JavaScript

我试过使用Sanitizegem清理包含网站HTML的字符串。它只删除了标记,而不是脚本标记内的JavaScript。我可以使用什么从页面中删除JavaScript? 最佳答案 require'open-uri'#includedwithRuby;onlyneededtoloadHTMLfromaURLrequire'nokogiri'#geminstallnokogirireadmoreathttp://nokogiri.orghtml=open('http://stackoverflow.com')#GettheHTMLsour

ruby - 我如何在 Nokogiri 中获取下一个 HTML 元素?

假设我的HTML文档是这样的:NewsSomeinterestingnewshereSportsBaseballisfun!我可以使用以下代码获取标题div:require'rubygems'require'nokogiri'require'open-uri'url="mypage.html"doc=Nokogiri::HTML(open(url))doc.css(".headline").eachdo|item|putsitem.textend但我如何访问以下p标签中的内容,以便News与Someinterestingnewshere等相关? 最佳答案

ruby - 使用 Ruby 获取网页的所有链接

我正在尝试使用Ruby检索网页的每个外部链接。我将String.scan与此正则表达式一起使用:/href="https?:[^"]*|href='https?:[^']*/i然后,我可以使用gsub删除href部分:str.gsub(/href=['"]/)这工作正常,但我不确定它在性能方面是否有效。这可以使用还是我应该使用更具体的解析器(例如nokogiri)?哪种方式更好?谢谢! 最佳答案 使用正则表达式对于快速而肮脏的脚本来说很好,但Nokogiri使用起来非常简单:require'nokogiri'require'open

ruby-on-rails - nokogiri - 错误 : Failed to build gem native extension

我更新到Lion的开发人员版本,发现我无法再启动Rails应用程序。每当我尝试sudobundleinstall时,我都会收到以下错误:Installingnokogiri(1.4.4)withnativeextensions/Library/Ruby/Site/1.8/rubygems/installer.rb:551:in`build_extensions':ERROR:Failedtobuildgemnativeextension.(Gem::Installer::ExtensionBuildError)/System/Library/Frameworks/Ruby.framew