抓取_草庐IT

ruby - 使用 Mechanize for Ruby 抓取 Akamai 控制面板的屏幕 - Cookies 问题

我正尝试从Akamai的控制面板中抓取一些数据，但在通过mechanizeforRuby登录页面时遇到问题。require'rubygems'require'mechanize'agent=Mechanize.newurl='http://control.akamai.com'page=agent.get(url)putspage.content检查页面后，我发现显示:"Cookiesupporthasbeendisabledinyourbrowser.Pleaseenablecookiesbeforecontinuing."页面认为我禁用了cookie的事实阻止我登录。有什么想法吗？

asp.net - 使用 Ruby 抓取 ASP.NET 站点

我想使用Ruby抓取此ASP.NET站点的搜索结果，最好只使用Hpricot(我无法打开Firefox实例):http://www.ngosinfo.gov.pk/SearchResults.aspx?name=&foa=0但是，我无法弄清楚如何浏览每一页结果。基本上，我需要模拟点击这些链接:23等等我尝试使用Net::HTTP来处理该帖子，但是虽然收到了正确的HTML，但没有搜索结果(我可能没有正确执行)。另外，该页面的URL不包含任何指示页面的参数，因此无法强制这样的结果。如有任何帮助，我们将不胜感激。最佳答案使用mecha

Ruby asp section ContentPlaceHolder1 ContentPlaceHolder asp.net screen-scraping

ruby-on-rails - 使用 RoR 从文本单元中抓取第一段？

标题几乎解释了它。我正在用Ruby1.9.3和Rails3.2.2为自己编写一个博客引擎，我需要能够从帖子(作为文本单元存储在数据库中)中获取第一段以用作帖子头版摘要。最简单的方法是什么？谷歌在这个问题上透露的很少；这似乎不是一个普遍的需求。最佳答案一旦您开始思考在您的世界中究竟是什么定义了“段落”，答案就会变得相当明显。如果是第一个字符列表后面跟着两个换行符呢？有点像str.split("\n\n",2)[0]可以工作。如果您有HTML并且您的段落由定义标签，使用nokogiri之类的Nokogiri::HTML.parse(

ruby-on-rails rails section code 段落 ruby text ruby-on-rails-3.2

javascript - Nokogiri 可以解释 javascript 吗？ - 网页抓取

我们正在尝试抓取此页面上的可用性:http://www.equityapartments.com/new-york/new-york-city-apartments/midtown-west/mantena-apartments.aspx我需要使用我的蜘蛛程序来选择“所有楼层平面图”并获取所有可用性。但我相信数据实际上是通过Javascript请求发送的。我的Nokogiri蜘蛛有没有办法渲染它？或者模拟点击按钮的过程？最佳答案 Nokogiri只是一个parser.它还允许搜索内容。要与网页交互，您需要使用其他东西，例如Wati

javascript Nokogiri section noreferrer noopener ruby-on-rails ruby web-scraping

ruby - 在 Ruby 中抓取/解析谷歌搜索结果

假设我有Google搜索结果页面的完整HTML。有谁知道任何现有代码(Ruby？)来抓取/解析谷歌搜索结果的第一页？理想情况下，它将处理可以在任何地方出现的购物结果和视频结果部分。如果不是，一般来说，最好的基于Ruby的屏幕抓取工具是什么？澄清一下:我知道很难/不可能以编程方式/API方式获取Google搜索结果，而且简单地curl结果页面有很多问题。在stackoverflow上对这两点达成了共识。我的问题不同。最佳答案这应该很简单，看看RyanBates转换的“ScreenScrapingwithScrAPI”屏幕。您仍然可

ruby section Nokogiri google-search google-search-api

python - 寻找关于网络抓取项目最佳实践的好教程的推荐？

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭7年前。Improvethisquestion我需要做一个涉及网络抓取的相当广泛的项目，并且正在考虑使用Hpricot或BeautifulSoup(即Ruby或Python)。有没有人遇到过他们认为在这个主题上特别出色的教程，可以帮助我顺利地开始项目？

python 的 section class notice ruby screen-scraping beautifulsoup hpricot

ruby-on-rails - ActionView::MissingTemplate:缺少模板主页/索引 - Google 抓取工具

我在网站上启动Google抓取工具时遇到此错误:错误信息:ActionView::MissingTemplate:Missingtemplatehome/index,application/indexwith{:locale=>[:fr],:formats=>["image/*"],:handlers=>[:erb,:builder,:haml]}.Searchedin:*"/home/custodir/apps/default/releases/32/app/views"*"/home/custodir/apps/default/shared/bundle/ruby/2.0.0/ge

MissingTemplate ruby-on-rails custodir default home ruby web-crawler google-crawlers

ruby - 抓取启用 ajax 的网页

我需要抓取多家公司的招聘页面(在他们允许的情况下)。决定我使用什么的重要因素我每天要抓取大约2000页，所以需要相当快的速度解决方案其中一些页面在页面加载后通过ajax填充数据。我的网络堆栈是Ruby/Rails和MySql等。我之前使用scrapy(python)(+Selenium用于支持ajax的页面)编写了爬虫。我的疑问我很困惑我是应该使用python(即scrapy+Selenium，我认为这是python中的最佳选择)，还是更喜欢ruby中的某些东西(因为我的整个代码库都是在ruby中)。Scrapy+selenium通常很慢，在ruby中有更快的替代品吗？(这

ruby ajax section strong noreferrer nokogiri scrapy mechanize watir

ruby - 如何抓取具有延迟加载的页面

这是我用于解析网页的代码。我是在Rails控制台中完成的。但是我在Rails控制台中没有得到任何输出。我想抓取的网站正在延迟加载require'nokogiri'require'open-uri'page=1whiletrueurl="http://www.justdial.com/functions"+"/ajxsearch.php?national_search=0&act=pagination&city=Delhi+%2F+NCR&search=Pandits"+"&where=Delhi+Cantt&catid=1195&psearch=&prid=&page=#{page}"

ruby 如何 34 39 amp web-scraping nokogiri

ruby - 我如何使用 Nokogiri 和 Ruby 从带有嵌套表格的 HTML 中抓取值？

我正在尝试从我使用Nokogiri解析的页面中提取姓名、ID、电话、电子邮件、性别、种族、DOB、类(class)、专业、学校和GPA。我尝试了一些不同的xpath，但我尝试的一切都比我想要的要多得多:RecruitProfileNameSomePersonEDUIDA12345678Phone123-456-7890Address1234SomewhereDr.CityST,12345Emailsomeone@email.comGenderFemaleEthnicityUnknownDateofBirthJan1st,1901ClassSophomoreMajorBiologySch

Nokogiri ruby gt lt 34 mechanize