我想将html转换为纯文本。不过,我不想只删除标签,我想智能地保留尽可能多的格式。为插入换行符标签,检测段落并格式化它们等。输入非常简单,通常是格式良好的html(不是整个文档,只是一堆内容,通常没有anchor或图像)。我可以将几个正则表达式放在一起,让我达到80%,但我认为可能有一些现有的解决方案更智能。 最佳答案 首先,不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案,它会随着HTML的变化而崩溃,或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
我需要从站点抓取数据,但它需要我先登录。我一直在使用hpricot成功地抓取其他网站,但我是使用mechanize的新手,我真的对如何使用它感到困惑。我看到这个例子经常被引用:require'rubygems'require'mechanize'a=Mechanize.newa.get('http://rubyforge.org/')do|page|#Clicktheloginlinklogin_page=a.click(page.link_with(:text=>/LogIn/))#Submittheloginformmy_page=login_page.form_with(:act
我会定期收到此异常:NotImplementedError:method`at'calledonterminatedobject在这行代码中:nextifHpricot(html).at('a')这个错误是什么意思?我该如何避免? 最佳答案 您正在使用的库使用自定义C扩展。在C扩展中,它试图在已被垃圾回收的Ruby对象上调用方法。这在纯Ruby中是不可能发生的,因为垃圾收集器只会释放不再能从任何引用中访问的对象。但在C语言中,可能会在垃圾收集器不检查的地方保留对Ruby对象的引用(例如,编译器可能已将变量放入CPU寄存器中)。
我正在使用Hpricot和OpenURI来解析网页并从中提取URL。当我收到类似“http:rapidshare.com”的链接时,它不会重定向到https。这是我得到的错误:/home/leonidus/.rvm/rubies/ruby-1.9.3-p125/lib/ruby/1.9.1/open-uri.rb:216:in`open_loop':redirectionforbidden:http:.................=>https:...........................我尝试使用异常处理程序OPENURI::HTTPREDIRECT但我又遇到了同样的错
我正在尝试使用以下命令安装hpricot:>geminstallhpricot-v0.8.2Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallinghpricot:ERROR:Failedtobuildgemnativeextension.C:/Ruby19/bin/ruby.exeextconf.rbcheckingforstdio.h...*extconf.rbfailed*CouldnotcreateMakefileduetosomereason,probablylackofnecessarylibr
你会选择哪一个?我的重要属性是(排名不分先后):支持和future的改进。社区和一般知识库(在Internet上)。全面(即,证明可以解析范围广泛的*.*ml页面)。表现。内存占用(运行时,而不是代码库)。 最佳答案 选择Nokogiri,对于所有要点,尤其是第一点:Hpricot是nolongermaintained.元答案:参见ruby-toolbox了解不同工具在特定领域的流行程度。 关于ruby-NokogirivsHpricot?,我们在StackOverflow上找到一个类似
给定:require'rubygems'require'nokogiri'value=Nokogiri::HTML.parse(AFooBCBarDEF"HTML_END我想做一些我可以在Hpricot中做的事情:divs=value.search('//div[@id^="para-"]')如何对XPath样式的元素进行模式搜索?我在哪里可以找到对我有帮助的文档?我没有在rdoc中看到这个。 最佳答案 使用xpath函数starts-with:value.xpath('//p[starts-with(@id,"para-")]')
在尝试Hpricot和Nokogiri时,可以获取和解析HTML,但它们是否也可以执行Javascript以便在页面上显示内容?(显示在DOM中)。这是因为某些页面只有在JavaScript初始化代码运行后才会显示信息。 最佳答案 据我所知没有。您可能想研究使用类似Watir的东西并使用真正的浏览器。 关于javascript-任何Ruby的HTML解析器都可以执行JavaScript来查看生成的DOM吗?,我们在StackOverflow上找到一个类似的问题:
我正在尝试在JRuby中使用一些带有类似元素的遗留XML:content我一直在使用Hpricot,但Hpricot面向HTML的快捷方式对我不利:doc.search("//with.dot")好像在找(几年前,我在使用JQuery时也遇到过这个问题。)我可以用Hpricot做这个吗,还是我需要使用不同的库? 最佳答案 查看nokogiri.它被称为“Ruby(比Hpricot)更快、更好的HTML和XML解析器”。 关于xml-使用JRuby(Hpricot?)解析带有标签的XML,
我只想要没有那些标签的文本。Hrpicot.XML是否有任何方法? 最佳答案 使用element.inner_text而不是#inner_html并为您删除它们 关于ruby-如何使用Hpricot从XML文本周围删除<![CDATA[]]>标签?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/3542932/