草庐IT

ruby - 使用 Mechanize for Ruby 抓取 Akamai 控制面板的屏幕 - Cookies 问题

我正尝试从Akamai的控制面板中抓取一些数据,但在通过mechanizeforRuby登录页面时遇到问题。require'rubygems'require'mechanize'agent=Mechanize.newurl='http://control.akamai.com'page=agent.get(url)putspage.content检查页面后,我发现显示:"Cookiesupporthasbeendisabledinyourbrowser.Pleaseenablecookiesbeforecontinuing."页面认为我禁用了cookie的事实阻止我登录。有什么想法吗?

asp.net - 使用 Ruby 抓取 ASP.NET 站点

我想使用Ruby抓取此ASP.NET站点的搜索结果,最好只使用Hpricot(我无法打开Firefox实例):http://www.ngosinfo.gov.pk/SearchResults.aspx?name=&foa=0但是,我无法弄清楚如何浏览每一页结果。基本上,我需要模拟点击这些链接:23等等我尝试使用Net::HTTP来处理该帖子,但是虽然收到了正确的HTML,但没有搜索结果(我可能没有正确执行)。另外,该页面的URL不包含任何指示页面的参数,因此无法强制这样的结果。如有任何帮助,我们将不胜感激。 最佳答案 使用mecha

ruby-on-rails - 使用 RoR 从文本单元中抓取第一段?

标题几乎解释了它。我正在用Ruby1.9.3和Rails3.2.2为自己编写一个博客引擎,我需要能够从帖子(作为文本单元存储在数据库中)中获取第一段以用作帖子头版摘要。最简单的方法是什么?谷歌在这个问题上透露的很少;这似乎不是一个普遍的需求。 最佳答案 一旦您开始思考在您的世界中究竟是什么定义了“段落”,答案就会变得相当明显。如果是第一个字符列表后面跟着两个换行符呢?有点像str.split("\n\n",2)[0]可以工作。如果您有HTML并且您的段落由定义标签,使用nokogiri之类的Nokogiri::HTML.parse(

javascript - Nokogiri 可以解释 javascript 吗? - 网页抓取

我们正在尝试抓取此页面上的可用性:http://www.equityapartments.com/new-york/new-york-city-apartments/midtown-west/mantena-apartments.aspx我需要使用我的蜘蛛程序来选择“所有楼层平面图”并获取所有可用性。但我相信数据实际上是通过Javascript请求发送的。我的Nokogiri蜘蛛有没有办法渲染它?或者模拟点击按钮的过程? 最佳答案 Nokogiri只是一个parser.它还允许搜索内容。要与网页交互,您需要使用其他东西,例如Wati

ruby - 在 Ruby 中抓取/解析谷歌搜索结果

假设我有Google搜索结果页面的完整HTML。有谁知道任何现有代码(Ruby?)来抓取/解析谷歌搜索结果的第一页?理想情况下,它将处理可以在任何地方出现的购物结果和视频结果部分。如果不是,一般来说,最好的基于Ruby的屏幕抓取工具是什么?澄清一下:我知道很难/不可能以编程方式/API方式获取Google搜索结果,而且简单地curl结果页面有很多问题。在stackoverflow上对这两点达成了共识。我的问题不同。 最佳答案 这应该很简单,看看RyanBates转换的“ScreenScrapingwithScrAPI”屏幕。您仍然可

python - 寻找关于网络抓取项目最佳实践的好教程的推荐?

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion我需要做一个涉及网络抓取的相当广泛的项目,并且正在考虑使用Hpricot或BeautifulSoup(即Ruby或Python)。有没有人遇到过他们认为在这个主题上特别出色的教程,可以帮助我顺利地开始项目?

ruby-on-rails - ActionView::MissingTemplate:缺少模板主页/索引 - Google 抓取工具

我在网站上启动Google抓取工具时遇到此错误:错误信息:ActionView::MissingTemplate:Missingtemplatehome/index,application/indexwith{:locale=>[:fr],:formats=>["image/*"],:handlers=>[:erb,:builder,:haml]}.Searchedin:*"/home/custodir/apps/default/releases/32/app/views"*"/home/custodir/apps/default/shared/bundle/ruby/2.0.0/ge

ruby - 抓取启用 ajax 的网页

我需要抓取多家公司的招聘页面(在他们允许的情况下)。决定我使用什么的重要因素我每天要抓取大约2000页,所以需要相当快的速度解决方案其中一些页面在页面加载后通过ajax填充数据。我的网络堆栈是Ruby/Rails和MySql等。我之前使用scrapy(python)(+Selenium用于支持ajax的页面)编写了爬虫。我的疑问我很困惑我是应该使用python(即scrapy+Selenium,我认为这是python中的最佳选择),还是更喜欢ruby​​中的某些东西(因为我的整个代码库都是在ruby​​中)。Scrapy+selenium通常很慢,在ruby​​中有更快的替代品吗?(这

ruby - 如何抓取具有延迟加载的页面

这是我用于解析网页的代码。我是在Rails控制台中完成的。但是我在Rails控制台中没有得到任何输出。我想抓取的网站正在延迟加载require'nokogiri'require'open-uri'page=1whiletrueurl="http://www.justdial.com/functions"+"/ajxsearch.php?national_search=0&act=pagination&city=Delhi+%2F+NCR&search=Pandits"+"&where=Delhi+Cantt&catid=1195&psearch=&prid=&page=#{page}"

ruby - 我如何使用 Nokogiri 和 Ruby 从带有嵌套表格的 HTML 中抓取值?

我正在尝试从我使用Nokogiri解析的页面中提取姓名、ID、电话、电子邮件、性别、种族、DOB、类(class)、专业、学校和GPA。我尝试了一些不同的xpath,但我尝试的一切都比我想要的要多得多:RecruitProfileNameSomePersonEDUIDA12345678Phone123-456-7890Address1234SomewhereDr.CityST,12345Emailsomeone@email.comGenderFemaleEthnicityUnknownDateofBirthJan1st,1901ClassSophomoreMajorBiologySch