草庐IT

Nokogiri

全部标签

ruby - 使用 Nokogiri(而不是 Tidy)清理 HTML

tidygem不再维护并且存在多个内存泄漏问题。有些人建议使用Nokogiri。我目前正在使用以下方法清理HTML:Nokogiri::HTML::DocumentFragment.parse(html).to_html不过我有两个问题:Nokogiri删除了DOCTYPE有没有一种简单的方法可以强制清理后的HTML具有html和body标签? 最佳答案 如果您正在处理完整文档,您需要:Nokogiri::HTML(html).to_html这将强制html和body标签,并引入或保留DOCTYPE:putsNokogiri::HT

ruby-on-rails - 被 nokogiri 在 ruby​​ on rails 中转换为 "\u0092"

我有一个html页面,其中包含一些html实体,例如“’”。#HereIamnotpastingwholehtmlpagecontent.justputtingissuelineonlyhtml_file="....they’reoriginallyintendedtodescribethespreadofofviraldiseases,butthey’reniceanalogiesforhowweb/SNappsgrow...."doc=Nokogiri::HTML(html)body=doc.xpath('//body')body_conten

ruby - 如何使用 XPath 和 Nokogiri 获取 XML 节点的内容

我有这样的代码:@doc=Nokogiri::HTML(open(url)@doc.xpath(query).eachdo|html|putshtml#howgetcontentofanodeend我如何获取节点的内容而不是像这样: 最佳答案 这是READMEfile中的概要示例为Nokogiri展示了一种使用CSS、XPath或混合的方法:require'nokogiri'require'open-uri'#GetaNokogiri::HTML:Documentforthepagewe’reinterestedin...doc=N

ruby - 如何通过 CSS 而不是 XPath 选择带有文本内容的元素?

“Nokogiri:Howtoselectnodesbymatchingtext?”可以通过XPath执行此操作,但是,我正在寻找一种使用与元素文本匹配的CSS选择的方法。PyQuery和PHPQuery可以做到这一点。没有用于Ruby的jQueryAPI库吗? 最佳答案 Nokogiri(现在)实现了jQuery选择器,使得搜索节点文本成为可能:例如:require'nokogiri'html='foobar'doc=Nokogiri::HTML(html)doc.at('p:contains("bar")').text.stri

ruby - 如何使用 Nokogiri 解析和抓取 URL 的元标记?

我正在使用Nokogiri来拉取和标签,但我无法获得这些:我有这个代码:url='https://en.wikipedia.org/wiki/Emma_Watson'page=Nokogiri::HTML(open(url))putspage.css('title')[0].textputspage.css('h1')[0].textputspage.css('description')putsMETADESCRIPTIONputsMETAKEYWORDS我查看了文档,但没有找到任何内容。我会使用正则表达式来执行此操作吗?谢谢。 最佳答案

ruby-on-rails - gem install nokogiri -v '1.5.11' 由于 make :/usr/local/bin/gmkdir: No such file or directory 而失败

Rubyversion:2.2.5MacOSX:10.11.5Gemversion:2.4.8Bundlerversion:1.12.5当我运行geminstallnokogiri-v'1.5.11'时,出现以下错误:Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingnokogiri:ERROR:Failedtobuildgemnativeextension./Users/hwpeng/.rvm/rubies/ruby-2.2.5/bin/ruby-r./siteconf20160707-31800-

ruby - Nokogiri 文本节点内容

有没有什么干净的方法可以用Nokogiri获取文本节点的内容?现在我正在使用some_node.at_xpath("//whatever").first.content这对于获取文本来说似乎真的很冗长。 最佳答案 您只想要文本?doc.search('//text()').map(&:text)也许您不想要所有的空白和噪音。如果您只想要包含单词字符的文本节点,doc.search('//text()').map(&:text).delete_if{|x|x!~/\w/}编辑:看来您只想要单个节点的文本内容:some_node.at_

ruby - Heroku 应用程序崩溃并显示 'libruby.so.1.9: cannot open shared object file'

这个问题不太可能帮助任何future的访问者;它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关,这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用,visitthehelpcenter.关闭10年前。我在部署这个应用程序时从未遇到过问题,但我刚刚推送,现在我遇到了这个奇怪的错误,它在堆栈中足够深,甚至没有被发送到Airbrake。我觉得这可能是Heroku的问题,可能与https://status.heroku.com/incidents/450有关。?你怎么看?2012-10-14T08:40:31+00:00heroku[web.1]:State

ruby - 是否有类似于 Nokogiri 的东西来解析 Ruby 代码?

Nokogiri很棒。我可以做#css('.bla')这样的事情,它会返回第一个匹配的元素。现在我们需要对Ruby源代码进行一些解析-查找类中的所有方法等。我们正在使用ruby_parsergem,但它所做的只是梳理你的源代码并吐出S表达式。对于这些S表达式,是否有类似Nokogiri的东西可以执行诸如“为找到的名为‘foo’的第一个方法返回S表达式”之类的事情? 最佳答案 我唯一能想到的是AdamSanderson'sSExpPathlibrary. 关于ruby-是否有类似于Noko

ruby-on-rails - 如何使用 Rails 缓存来存储 Nokogiri 对象?

我使用Rails5来使用Rails缓存来存储Nokogiri对象。我在config/initializers/cache.rb中创建了这个:$cache=ActiveSupport::Cache::MemoryStore.new我想像这样存储文档:$cache.fetch(url){result=get_content(url,headers,follow_redirects)}但是我收到了这个错误:Errorduringprocessing:(TypeError)no_dump_dataisdefinedforclassNokogiri::HTML::Document/Users/d