screen-scraping

ruby - 如何抓取 _private_ 谷歌群组？

我想抓取私有(private)谷歌群组的讨论列表。这是一个多页列表，稍后我可能不得不再次这样做，所以编写脚本听起来是个不错的选择。由于这是一个私有(private)群组，我需要先登录我的谷歌帐户。不幸的是，我无法使用wget或rubyNet::HTTP登录。令人惊讶的是，使用ClientLogininterface无法访问谷歌群组,所以所有的代码示例都是无用的。我的ruby脚本嵌入在帖子的末尾。身份验证查询的响应是200-OK，但响应header中没有cookie，正文包含消息“您的浏览器的cookie功能已关闭。请将其打开。”我得到了与wget相同的输出。请参阅此消息末尾的b

private ruby 39 section CMD authentication screen-scraping wget google-groups

ruby-on-rails - 从 HTML 页面中删除所有 JavaScript

我试过使用Sanitizegem清理包含网站HTML的字符串。它只删除了标记，而不是脚本标记内的JavaScript。我可以使用什么从页面中删除JavaScript？最佳答案 require'open-uri'#includedwithRuby;onlyneededtoloadHTMLfromaURLrequire'nokogiri'#geminstallnokogirireadmoreathttp://nokogiri.orghtml=open('http://stackoverflow.com')#GettheHTMLsour

ruby-on-rails JavaScript section script ruby ruby-on-rails-3.1 screen-scraping nokogiri

ruby - 在 Mechanize 请求之间维护 cookie

我正在尝试使用Mechanize的Ruby版本从我们正在远离的不提供API的工单管理系统中提取我雇主的工单。问题是，Mechanize似乎没有在post调用和get调用之间保留cookie，如下所示:require'rubygems'require'nokogiri'require'mechanize'@agent=Mechanize.newpage=@agent.post('http://.com/user_session',{'authenticity_token'=>'','user_session[login]'=>'','user_session[password]'=>''

Mechanize cookie 39 code user_session ruby screen-scraping

ruby - Nokogiri、open-uri 和 Unicode 字符

我正在使用Nokogiri和open-uri来抓取网页上标题标签的内容，但在处理重音字符时遇到了问题。处理这些问题的最佳方法是什么？这是我正在做的:require'open-uri'require'nokogiri'doc=Nokogiri::HTML(open(link))title=doc.at_css("title")此时，标题看起来是这样的:Rag\303\271代替:Ragù我怎样才能让nokogiri返回正确的字符(例如本例中的ù)？这是一个示例网址:http://www.epicurious.com/recipes/food/views/Tagliatelle-with-

Nokogiri open-uri UTF-8 code ruby unicode screen-scraping

javascript - screen.lockOrientation 不是函数

我想在Chrome中使用Js中的API屏幕。if(navigator.userAgent.match(/(android|iphone)/gi)){if('orientation'inscreen){//console.log('//APIsupported,yeah!');//console.log('neworientationis',screen.orientation);screen.lockOrientation('landscape');}else{console.log('//APInotsupported');}}else{//alert('none');}我的错误js

lockOrientation javascript screen orientation mobile responsive

javascript - JSON Scraping - 通过 Javascript 将军事时间转换为标准时间

我正在从url中抓取JSON数据。时间是军用时间，我想知道在客户端检索后是否有办法将其转换为标准时间。这是JSON:[{SaturdayClose:"21:00",SaturdayOpen:"10:00",SundayClose:"12:00",SundayOpen:"18:00",WeekdayClose:"21:00",WeekdayOpen:"10:00"}]这是我的index.html:Sun:${SundayOpen}a-${SundayClose}pMon-Sat:${SaturdayOpen}a${SaturdayClose}p这会返回这种类型的丑陋:周日:上午18:00

javascript 34 code 00 json datetime screen-scraping

javascript - 抓取数据、 headless 浏览器和 Python

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭9年前。Improvethisquestion所以我是一名CS学生，正在尝试学习网络抓取以及随之而来的所有该做和不该做的事情。在弄乱了iMacros和其他一些数据抓取“工具”之后，我转向了Python，这是一种我当时并不熟悉的语言。我了解了BeautifulSoup和urllib2，并通过stackoverflow和其他一些论坛学习了我的方法。现在，利用我目前获得的知识，我可以抓取大多数静态网页。然而，我们都知道静态页面的时代已经结束，现在即使是普通

javascript headless section stackoverflow class python web-scraping screen-scraping

javascript - 在 R 中抓取 javascript 网站

我想从这个url中抓取比赛时间和日期:http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary通过使用chrome开发工具，我可以看到这似乎是使用以下代码生成的:01:20AM,October29,2014但这不在源html中。我认为这是因为它的java(如果我错了请纠正我)。我如何使用R抓取这些信息？最佳答案因此，RSelenium不再是唯一的答案。如果您可以安装PhantomJS二进制文件(从这里获取phantomjs二进制文件:h

javascript 在 section 34 phantomjs r screen-scraping rvest

javascript - websocket + vuejs : screen flickering, 可见 mustache 代码

我使用websockets和vuejs构建了一个网络应用程序。在DOM中，我想遍历vuejs处理的数据。然而，在建立websocket连接并接收到数据后，数据会在时间线的后面设置。到那时(大约0.5秒)，您可以在网站本身上看到vuejs的mustache代码，然后看到它闪烁并添加真实数据。当从websocket连接接收数据时，我创建了ViewModel，如下所示:onMessage:function(e){newVue({el:'#messages',data:{messages:e.data}});}我已经尝试过在页面加载时初始化ViewModel，然后设置数据:varvms={me

javascript flickering code section messages websocket vue.js

javascript - JS "Window"宽高与 "screen"宽高？

当我看到这段代码时，我有点疑惑://GetthescreenheightandwidthvarmaskHeight=$(document).height();varmaskWidth=$(window).width();...//GetthewindowheightandwidthvarwinH=$(window).height();varwinW=$(window).width();$(document).height();和$(window).height();有什么区别？最佳答案 Window是顶级客户端对象，其中包含文档。

amp 34 section height code javascript jquery window screen document

123 4 5