草庐IT

mechanize

全部标签

ruby - 如何使用 Mechanize/Nokogiri 获取页面源

我使用Mechanize登录到网页/servlet。我有一个页面对象:jobShortListPg=agent.get(addressOfPage)当我使用时:putsjobShortListPg我得到了我不想要的页面的“Mechanize”版本:#如何获取页面的HTML源代码? 最佳答案 使用.body:putsjobShortListPg.body 关于ruby-如何使用Mechanize/Nokogiri获取页面源,我们在StackOverflow上找到一个类似的问题:

ruby - 为什么在 Windows 上使用 Mechanize 访问 SSL 站点失败,但在 Mac 上却可以?

这是我用来连接到SSL站点的代码。require'mechanize'a=Mechanize.newpage=a.get'https://site.com'我正在使用Ruby1.9.3和Mechanize2.1pre1+依赖项。在Mac上,上面的代码工作并返回页面。在运行相同版本的Windows7上,它给我以下错误:OpenSSL::SSL::SSLError:SSL_connectreturned=1errno=0state=SSLv3readservercertificateB:certificateverifyfailed恢复到Mechanize2.0.1似乎解决了这个问题,但我

ruby-on-rails - 如何在 Rails 中为 Mechanize 设置自定义用户代理

我知道你有一组预定义的别名,你可以通过设置agent.user_agent_alias='LinuxMozilla'来使用,但是如果我想设置我自己的用户代理,因为我正在写一个网络爬虫并想要识别它,为了我索引的网站。就像Googlebot。似乎有一个user_agent方法,但我似乎找不到任何关于它的功能的文档。 最佳答案 您可以从别名设置用户代理a=Mechanize.newa.user_agent_alias='MacSafari'可用别名存储在AGENT_ALIASES常量中。pMechanize::AGENT_ALIASES否

javascript - 使用 Python 在链接的 href 中执行 JavaScript

我正在尝试使用Python在站点(http://bibliotecadigitalhispanica.bne.es)上自动下载一些PDF。我试过使用urllib/urllib2/mechanize模块(我一直在其他站点使用这些模块:这包括urlopen、urlretrieve等标准函数),但是在这里,链接的href中嵌入了JavaScript进行一些处理并打开PDF的属性,这些模块似乎无法处理这些模块,至少从我在这里阅读的内容来看是这样。例如,当我执行以下操作时:request=mechanize.Request('theexampleurlbelow')response=mechan

javascript - WWW::Scripter 问题与 window.history

我正在使用perl模块WWW::Scripter(基于WWW::Mechanize)和JavaScript插件,我在基本的JavaScript语句方面遇到了问题。useWWW::Scripter;...my$web=WWW::Scripter->new(agent=>'...',autocheck=>1);...$web->use_plugin('JavaScript');...$web->add_header(Referer=>'http://...');...$web->get($url);其中源代码包含基本的JavaScript语句,例如:varx=window.history.

javascript - JS 更改了 DOM 后如何抓取内容?

我正在使用Mechanize,但如果Mechanize做不到,我愿意接受Nokogiri。我想在加载完所有脚本之后而不是之前抓取页面。我该怎么做? 最佳答案 我认为Nokogiri、Watir和PhantomJs是一个不错的选择:b=Watir::Browser.new(:phantomjs)b.gotoURLdoc=Nokogiri::HTML(b.html)生成的文档将在加载脚本后生成。phantomjs很好,因为不需要加载浏览器。 关于javascript-JS更改了DOM后如何抓

javascript - 是否有与 Perl 的 WWW::Mechanize 等效的 Node.js?

我正在搜索类似于WWW::Mechanize的Node模块对于Perl。或者甚至更好WWW::Mechanize::Firefox.主要功能是按名称查找和提交表单,类或ID。处理cookies的能力会很棒并且处理Javascript的能力将是完美的。如果有人有类似的想法,或者我可以在哪个方向搜索,那将不胜感激。 最佳答案 您正在寻找的是可编写脚本/headless的浏览器。按受欢迎程度降序排列,选项是:GooglePuppeteer-“提供高级API来控制Chrome或Chromium的Node库”Zombie-更轻便;“使用Nod

javascript - Request-Promise 使用 async/await 抛出 "no auth mechanism defined"

我刚刚尝试使用request-promise进行async/await并遇到了这个错误:RequestError:Error:noauthmechanismdefinedatnewRequestError(node_modules/request-promise-core/lib/errors.js:14:15)atRequest.plumbing.callback(node_modules/request-promise-core/lib/plumbing.js:87:29)atRequest.RP$callback[as_callback](node_modules/request

xml - 如何在 Amazon Mechanical Turk 命令行工具中将图像添加到资格测试?

我正在尝试使用AmazonMechanicalTurk命令行工具将外部图像URL添加到资格测试。这需要编辑标题为“qualification.question”的XML文件以包含图像URL。如果我想插入URLhttp://upload.wikimedia.org/wikipedia/commons/6/6f/Earth_Eastern_Hemisphere.jpg进入文本“这是什么图片?”下方“qualification.question”中的代码,我该怎么做?question1Whatisthisapictureof?radiobutton1aEarth1bSun

ruby-on-rails - Nokogiri:解析不规则 "<"

我正在尝试使用nokogiri来解析以下片段TotalWeight0%但是,我认为“ 最佳答案 作为快速修复,我想出了这个方法,使用正则表达式来识别未闭合的标签:deffix_irregular_html(html)regexp=/]*)(在此处查看包括测试在内的完整代码:https://gist.github.com/796571它对我来说效果很好,我感谢任何反馈和改进 关于ruby-on-rails-Nokogiri:解析不规则" https://stackoverfl