草庐IT

scrapy-splash

全部标签

python - 我如何设置 Scrapy 来处理验证码

我正在尝试抓取一个要求用户输入搜索值和验证码的网站。我有一个验证码的光学字符识别(OCR)例程,成功率约为33%。由于验证码始终是字母文本,如果OCR函数返回非字母字符,我想重新加载验证码。一旦我有一个文本“单词”,我想提交搜索表单。结果返回到同一页面,表单准备好进行新的搜索和新的验证码。所以我需要冲洗并重复,直到用尽我的搜索词。这是顶级算法:初始加载页面下载验证码图片,通过OCR运行如果OCR没有返回纯文本结果,请刷新验证码并重复此步骤在页面中提交带有搜索词和验证码的查询表单检查响应以查看验证码是否正确如果正确,则抓取数据转到2我试过使用管道获取验证码,但我没有表单提交的值。如果我只

python - 创建一个通用的 scrapy 蜘蛛

我的问题实际上是如何做与上一个问题相同的事情,但在Scrapy0.14中。UsingoneScrapyspiderforseveralwebsites基本上,我有一个GUI,它接受域、关键字、标签名称等参数,我想创建一个通用蜘蛛程序来为那些标签中的那些关键字爬行这些域。我读过相互矛盾的东西,使用旧版本的scrapy,通过覆盖蜘蛛管理器类或动态创建蜘蛛。首选哪种方法以及如何实现和调用正确的解决方案?提前致谢。这是我想要通用的代码。它还使用BeautifulSoup。我将它配对,希望没有删除任何对理解它至关重要的东西。classMySpider(CrawlSpider):name='MyS

python - 创建一个通用的 scrapy 蜘蛛

我的问题实际上是如何做与上一个问题相同的事情,但在Scrapy0.14中。UsingoneScrapyspiderforseveralwebsites基本上,我有一个GUI,它接受域、关键字、标签名称等参数,我想创建一个通用蜘蛛程序来为那些标签中的那些关键字爬行这些域。我读过相互矛盾的东西,使用旧版本的scrapy,通过覆盖蜘蛛管理器类或动态创建蜘蛛。首选哪种方法以及如何实现和调用正确的解决方案?提前致谢。这是我想要通用的代码。它还使用BeautifulSoup。我将它配对,希望没有删除任何对理解它至关重要的东西。classMySpider(CrawlSpider):name='MyS

html - scrapy - 如何从 'div' 获取文本

刚开始接触scrapy。现在我正在尝试按照教程进行爬网。但是我很难从div中抓取文本。这是items.pyfromscrapy.itemimportItem,FiedclassDmozItem(Item):name=Field()title=Field()pass这是dmoz_spider.pyfromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtmlXPathSelectorfromscrapy.itemimportItemfromdmoz.itemsimportDmozItemclassDmozSpider(Base

html - scrapy - 如何从 'div' 获取文本

刚开始接触scrapy。现在我正在尝试按照教程进行爬网。但是我很难从div中抓取文本。这是items.pyfromscrapy.itemimportItem,FiedclassDmozItem(Item):name=Field()title=Field()pass这是dmoz_spider.pyfromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtmlXPathSelectorfromscrapy.itemimportItemfromdmoz.itemsimportDmozItemclassDmozSpider(Base

python - 使用 scrapy 抓取网站

我正在尝试抓取website使用scrapy,但我无法从该站点抓取所有产品,因为它正在使用无休止的滚动...我只能抓取以下52个项目的数据,但它们是3824个项目。hxs.select("//span[@class='itm-Catbrandstrong']").extract()hxs.select("//span[@class='itm-price']").extract()hxs.select("//span[@class='itm-title']").extract()如果我使用hxs.select("//div[@id='content']/div/div/div").ext

python - 使用 scrapy 抓取网站

我正在尝试抓取website使用scrapy,但我无法从该站点抓取所有产品,因为它正在使用无休止的滚动...我只能抓取以下52个项目的数据,但它们是3824个项目。hxs.select("//span[@class='itm-Catbrandstrong']").extract()hxs.select("//span[@class='itm-price']").extract()hxs.select("//span[@class='itm-title']").extract()如果我使用hxs.select("//div[@id='content']/div/div/div").ext

python - scrapy 获取包括 child 在内的整个文本

我有一系列我正在使用scrapy抓取的文档中的元素。其中一些是:blablabla或者blablablasecondblabla我想提取所有带有子项的文本(假设我已经有了的选择器)(第二个例子:有一个字符串blablablasecondblabla) 最佳答案 您可以只使用//text()从子节点中提取所有文本例如:.//p//text() 关于python-scrapy获取包括child在内的整个文本,我们在StackOverflow上找到一个类似的问题:

python - scrapy 获取包括 child 在内的整个文本

我有一系列我正在使用scrapy抓取的文档中的元素。其中一些是:blablabla或者blablablasecondblabla我想提取所有带有子项的文本(假设我已经有了的选择器)(第二个例子:有一个字符串blablablasecondblabla) 最佳答案 您可以只使用//text()从子节点中提取所有文本例如:.//p//text() 关于python-scrapy获取包括child在内的整个文本,我们在StackOverflow上找到一个类似的问题:

html - 使用 scrapy 获取 crawlspider 来处理经过身份验证(登录)的用户 session

你好,我怎样才能让我的crawlspider工作,我可以登录,但没有任何反应,我真的没有抓到。我也一直在阅读scrapy文档,我真的不明白用于抓取的规则。为什么“登录成功,开始爬虫!”我在else语句的末尾也有这条规则,但将其删除,因为它甚至没有被调用,因为它在我的elseblock中。所以我将它移到start_request()方法的顶部但出现错误所以我删除了我的规则。rules=(Rule(extractor,callback='parse_item',follow=True),)我的代码:fromscrapy.contrib.spiders.initimportInitSpide