我想使用 Mechanize 来模拟浏览带有事件 JavaScript 的网页,包括 DOM 事件和 AJAX,但到目前为止我还没有找到这样做的方法。
我查看了一些支持 JavaScript 的 Python 客户端浏览器,例如 Spynner 和 Zope,但它们都不适合我。 Spynner 总是让 PyQt 崩溃,而且 Zope 似乎并不支持 JavaScript。
有没有一种方法可以模拟仅使用 Python 进行浏览(没有额外的进程),例如 WATIR 或操作 Firefox 或 Internet Explorer 的库,同时完全支持 Javascript,就像实际浏览页面一样?
最佳答案
我玩过这个名为 Phantom JS 的新 Mechanize 替代品(我喜欢它) .
它是一个完整的网络工具包浏览器,如 Safari 或 Chrome,但它是 headless 且可编写脚本的。你用javascript编写脚本,而不是python(至少据我所知)。
有一些示例脚本可以帮助您入门。这很像使用 Firebug。我只用了几分钟,但我发现我从一开始就很有效率。
关于javascript - Mechanize 和Javascript,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5793414/
我编写了一个脚本,它将遍历我们数据库中的所有客户,验证他们的网站URL是否有效,并尝试在他们的主页上找到一个Twitter链接。我们有超过10,000个URL需要验证。在url验证一小部分后,我们开始收到每个URL的getaddrinfo错误。这是抓取单个URL的代码副本:defscrape_url(url)url_found=falsetwitter_name=nilbeginagent=Mechanize.newdo|a|a.follow_meta_refresh=trueendagent.get(normalize_url(url))do|page|url_found=truet
不确定为什么我现在使用Mechanizegem时会收到此错误-使用它已经有一段时间了,没有任何问题。我的脚本会随机停止并抛出以下错误:/Users/username/.rvm/gems/ruby-1.9.3-p194/gems/mechanize-2.5.1/lib/mechanize/http/agent.rb:798:in`rescueinresponse_content_encoding':errorhandlingcontent-encodinggzip:buffererror(Zlib::BufError)(Mechanize::Error)有什么想法吗?
require'mechanize'agent=Mechanize.newlogin=agent.get('http://www.schoolnet.ch/DE/HomeDE.htm')agent.clicklogin.link_withtext:/Login/然后我得到Mechanize::UnsupportedSchemeError。 最佳答案 Mechanize不支持javascript但您可以将搜索字段添加到表单并为其分配搜索词并使用mechanize提交表单form=page.forms.firstform.add_fie
在Ruby上的Mechanize中,我必须为我访问的每个新页面分配一个新变量。例如:page2=page1.link_with(:text=>"Continue").clickpage3=page2.link_with(:text=>"About").click...etc有没有一种方法可以在没有保存每个页面状态的变量的情况下运行Mechanize?喜欢my_only_page.link_with(:text=>"Continue").click!my_only_page.link_with(:text=>"About").click! 最佳答案
我遇到了一个非常奇怪的问题,我很难解决。在我看来,我有一个与data-remote="true"和data-method="delete"的链接。当我单击该链接时,我可以看到对我的Rails服务器的DELETE请求。返回的JS代码会更改此链接的属性,其中包括href和data-method。再次单击此链接后,我的服务器收到了对新href的请求,但使用的是旧的data-method,即使我已将其从DELETE到POST(它仍然发送一个DELETE请求)。但是,如果我刷新页面,HTML与"new"HTML相同(随返回的JS发生变化),但它实际上发送了正确的请求类型。这就是这个问题令我困惑的
我正在使用Ruby/Mechanize编写一个“自动填写表格”应用程序。它几乎可以工作。我可以使用精彩CharlesWeb代理以查看服务器和我的Firefox浏览器之间的交换。现在我想使用Charles查看服务器和我的应用程序之间的交换。Charles在端口8888上代理。假设服务器位于https://my.host.com。.一件不起作用的事情是:@agent||=Mechanize.newdo|agent|agent.set_proxy("my.host.com",8888)end这会导致Net::HTTP::Persistent::Error:...lib/net/http/pe
我需要从站点抓取数据,但它需要我先登录。我一直在使用hpricot成功地抓取其他网站,但我是使用mechanize的新手,我真的对如何使用它感到困惑。我看到这个例子经常被引用:require'rubygems'require'mechanize'a=Mechanize.newa.get('http://rubyforge.org/')do|page|#Clicktheloginlinklogin_page=a.click(page.link_with(:text=>/LogIn/))#Submittheloginformmy_page=login_page.form_with(:act
我有这个:AccountSummary我想单击该链接,但在使用link_to时出现错误。我试过:bot.click(page.link_with(:href=>/menu_home/))bot.click(page.link_with(:class=>'top_level_active'))bot.click(page.link_with(:href=>/AccountSummary/))我得到的错误是:NoMethodError:nil:NilClass的未定义方法“[]” 最佳答案 那是一个javascript链接。Mechan
我试图通过点击一个链接获得一个带有ISO-8859-1编码的页面,所以代码类似于这样:page_result=page.link_with(:text=>'link_text').click到目前为止,我得到的结果编码错误,所以我看到的字符如下:'T�tulo:'insteadof'Título:'我尝试了几种方法,包括:使用代理在第一个请求中声明编码:@page_search=@agent.get(:url=>'http://www.server.com',:headers=>{'Accept-Charset'=>'ISO-8859-1'})说明页面本身的编码page_result.
也许我做错了,或者还有另一种更有效的方法。这是我的问题:我首先使用nokogiri打开一个html文档并使用其css遍历该文档,直到找到我需要单击的链接。现在我有了链接后,如何使用Mechanize来点击它?根据文档,Mechanize.new返回的对象是字符串或Mechanize::Page::Link对象。我不能使用字符串-因为可能有100个相同的链接-我只想Mechanize点击nokogiri遍历的链接。有什么想法吗? 最佳答案 找到所需的链接节点后,您可以手动创建Mechanize::Page::Link对象,然后单击它: