草庐IT

screen-scraping

全部标签

ruby - 如何抓取 _private_ 谷歌群组?

我想抓取私有(private)谷歌群组的讨论列表。这是一个多页列表,稍后我可能不得不再次这样做,所以编写脚本听起来是个不错的选择。由于这是一个私有(private)群组,我需要先登录我的谷歌帐户。不幸的是,我无法使用wget或ruby​​Net::HTTP登录。令人惊讶的是,使用ClientLogininterface无法访问谷歌群组,所以所有的代码示例都是无用的。我的ruby​​脚本嵌入在帖子的末尾。身份验证查询的响应是200-OK,但响应header中没有cookie,正文包含消息“您的浏览器的cookie功能已关闭。请将其打开。”我得到了与wget相同的输出。请参阅此消息末尾的b

ruby-on-rails - 从 HTML 页面中删除所有 JavaScript

我试过使用Sanitizegem清理包含网站HTML的字符串。它只删除了标记,而不是脚本标记内的JavaScript。我可以使用什么从页面中删除JavaScript? 最佳答案 require'open-uri'#includedwithRuby;onlyneededtoloadHTMLfromaURLrequire'nokogiri'#geminstallnokogirireadmoreathttp://nokogiri.orghtml=open('http://stackoverflow.com')#GettheHTMLsour

ruby - 在 Mechanize 请求之间维护 cookie

我正在尝试使用Mechanize的Ruby版本从我们正在远离的不提供API的工单管理系统中提取我雇主的工单。问题是,Mechanize似乎没有在post调用和get调用之间保留cookie,如下所示:require'rubygems'require'nokogiri'require'mechanize'@agent=Mechanize.newpage=@agent.post('http://.com/user_session',{'authenticity_token'=>'','user_session[login]'=>'','user_session[password]'=>''

ruby - Nokogiri、open-uri 和 Unicode 字符

我正在使用Nokogiri和open-uri来抓取网页上标题标签的内容,但在处理重音字符时遇到了问题。处理这些问题的最佳方法是什么?这是我正在做的:require'open-uri'require'nokogiri'doc=Nokogiri::HTML(open(link))title=doc.at_css("title")此时,标题看起来是这样的:Rag\303\271代替:Ragù我怎样才能让nokogiri返回正确的字符(例如本例中的ù)?这是一个示例网址:http://www.epicurious.com/recipes/food/views/Tagliatelle-with-

javascript - screen.lockOrientation 不是函数

我想在Chrome中使用Js中的API屏幕。if(navigator.userAgent.match(/(android|iphone)/gi)){if('orientation'inscreen){//console.log('//APIsupported,yeah!');//console.log('neworientationis',screen.orientation);screen.lockOrientation('landscape');}else{console.log('//APInotsupported');}}else{//alert('none');}我的错误js

javascript - JSON Scraping - 通过 Javascript 将军事时间转换为标准时间

我正在从url中抓取JSON数据。时间是军用时间,我想知道在客户端检索后是否有办法将其转换为标准时间。这是JSON:[{SaturdayClose:"21:00",SaturdayOpen:"10:00",SundayClose:"12:00",SundayOpen:"18:00",WeekdayClose:"21:00",WeekdayOpen:"10:00"}]这是我的index.html:Sun:${SundayOpen}a-${SundayClose}pMon-Sat:${SaturdayOpen}a${SaturdayClose}p这会返回这种类型的丑陋:周日:上午18:00

javascript - 抓取数据、 headless 浏览器和 Python

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭9年前。Improvethisquestion所以我是一名CS学生,正在尝试学习网络抓取以及随之而来的所有该做和不该做的事情。在弄乱了iMacros和其他一些数据抓取“工具”之后,我转向了Python,这是一种我当时并不熟悉的语言。我了解了BeautifulSoup和urllib2,并通过stackoverflow和其他一些论坛学习了我的方法。现在,利用我目前获得的知识,我可以抓取大多数静态网页。然而,我们都知道静态页面的时代已经结束,现在即使是普通

javascript - 在 R 中抓取 javascript 网站

我想从这个url中抓取比赛时间和日期:http://www.scoreboard.com/game/rosol-l-goffin-d-2014/8drhX07d/#game-summary通过使用chrome开发工具,我可以看到这似乎是使用以下代码生成的:01:20AM,October29,2014但这不在源html中。我认为这是因为它的java(如果我错了请纠正我)。我如何使用R抓取这些信息? 最佳答案 因此,RSelenium不再是唯一的答案。如果您可以安装PhantomJS二进制文件(从这里获取phantomjs二进制文件:h

javascript - websocket + vuejs : screen flickering, 可见 mustache 代码

我使用websockets和vuejs构建了一个网络应用程序。在DOM中,我想遍历vuejs处理的数据。然而,在建立websocket连接并接收到数据后,数据会在时间线的后面设置。到那时(大约0.5秒),您可以在网站本身上看到vuejs的mustache代码,然后看到它闪烁并添加真实数据。当从websocket连接接收数据时,我创建了ViewModel,如下所示:onMessage:function(e){newVue({el:'#messages',data:{messages:e.data}});}我已经尝试过在页面加载时初始化ViewModel,然后设置数据:varvms={me

javascript - JS "Window"宽高与 "screen"宽高?

当我看到这段代码时,我有点疑惑://GetthescreenheightandwidthvarmaskHeight=$(document).height();varmaskWidth=$(window).width();...//GetthewindowheightandwidthvarwinH=$(window).height();varwinW=$(window).width();$(document).height();和$(window).height();有什么区别? 最佳答案 Window是顶级客户端对象,其中包含文档。