Hpricot

ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式

我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h

ruby HTML code gt section html-parsing nokogiri beautifulsoup hpricot

ruby - 使用 Ruby 和 Mechanize 登录网站

我需要从站点抓取数据，但它需要我先登录。我一直在使用hpricot成功地抓取其他网站，但我是使用mechanize的新手，我真的对如何使用它感到困惑。我看到这个例子经常被引用:require'rubygems'require'mechanize'a=Mechanize.newa.get('http://rubyforge.org/')do|page|#Clicktheloginlinklogin_page=a.click(page.link_with(:text=>/LogIn/))#Submittheloginformmy_page=login_page.form_with(:act

Mechanize ruby session login 34 authentication screen-scraping hpricot

ruby - 什么是 "terminated object"，为什么我不能调用它的方法？

我会定期收到此异常:NotImplementedError:method`at'calledonterminatedobject在这行代码中:nextifHpricot(html).at('a')这个错误是什么意思？我该如何避免？最佳答案您正在使用的库使用自定义C扩展。在C扩展中，它试图在已被垃圾回收的Ruby对象上调用方法。这在纯Ruby中是不可能发生的，因为垃圾收集器只会释放不再能从任何引用中访问的对象。但在C语言中，可能会在垃圾收集器不检查的地方保留对Ruby对象的引用(例如，编译器可能已将变量放入CPU寄存器中)。

terminated amp section 收集器 code ruby hpricot

ruby - open-uri 没有将 http 重定向到 https

我正在使用Hpricot和OpenURI来解析网页并从中提取URL。当我收到类似“http:rapidshare.com”的链接时，它不会重定向到https。这是我得到的错误:/home/leonidus/.rvm/rubies/ruby-1.9.3-p125/lib/ruby/1.9.1/open-uri.rb:216:in`open_loop':redirectionforbidden:http:.................=>https:...........................我尝试使用异常处理程序OPENURI::HTTPREDIRECT但我又遇到了同样的错

open-uri https section noreferrer ruby rubygems hpricot

ruby - 在 Windows 上的 Ruby 1.9.1 上安装 Hpricot

我正在尝试使用以下命令安装hpricot:>geminstallhpricot-v0.8.2Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallinghpricot:ERROR:Failedtobuildgemnativeextension.C:/Ruby19/bin/ruby.exeextconf.rbcheckingforstdio.h...*extconf.rbfailed*CouldnotcreateMakefileduetosomereason,probablylackofnecessarylibr

Windows Hpricot ruby code

ruby - Nokogiri vs Hpricot？

你会选择哪一个？我的重要属性是(排名不分先后):支持和future的改进。社区和一般知识库(在Internet上)。全面(即，证明可以解析范围广泛的*.*ml页面)。表现。内存占用(运行时，而不是代码库)。最佳答案选择Nokogiri，对于所有要点，尤其是第一点:Hpricot是nolongermaintained.元答案:参见ruby-toolbox了解不同工具在特定领域的流行程度。关于ruby-NokogirivsHpricot？，我们在StackOverflow上找到一个类似

Nokogiri Hpricot section li noreferrer ruby html-parsing

ruby - 如何在 Nokogiri 中使用正则表达式搜索匹配特定开头的文本？

给定:require'rubygems'require'nokogiri'value=Nokogiri::HTML.parse(AFooBCBarDEF"HTML_END我想做一些我可以在Hpricot中做的事情:divs=value.search('//div[@id^="para-"]')如何对XPath样式的元素进行模式搜索？我在哪里可以找到对我有帮助的文档？我没有在rdoc中看到这个。最佳答案使用xpath函数starts-with:value.xpath('//p[starts-with(@id,"para-")]')

何在 Nokogiri 39 lt gt ruby hpricot