SCRAPY_草庐IT

python - 从脚本运行 Scrapy - 挂起

我正在尝试从讨论的脚本运行scrapyhere.它建议使用this片段，但当我这样做时，它会无限期地挂起。这是在.10版本中写回的；它仍然与当前的稳定版兼容吗？最佳答案 fromscrapyimportsignals,logfromscrapy.xlib.pydispatchimportdispatcherfromscrapy.crawlerimportCrawlerProcessfromscrapy.confimportsettingsfromscrapy.httpimportRequestdefhandleSpiderIdle

python - 如何重新安排 403 HTTP 状态代码稍后在 scrapy 中抓取？

根据theseinstructions我可以看到HTTP500错误、连接丢失错误等总是被重新安排，但如果403错误也被重新安排，或者它们只是被视为有效响应或在达到重试限制后被忽略，我找不到任何地方。同样来自同一条指令:Failedpagesarecollectedonthescrapingprocessandrescheduledattheend,oncethespiderhasfinishedcrawlingallregular(nonfailed)pages.Oncetherearenomorefailedpagestoretry,thismiddlewaresendsasigna

python scrapy code section web-scraping

python - 按照 scrapy 中的重定向链接

我该如何设置？我已经写了handle_httpstatus_list=[301,302,303]，但是scrapy没有跟随新链接，它刚刚开始保存页面的空文件。附言英语不是我的母语。对不起。最佳答案 Scrapy默认处理重定向，这意味着RedirectMiddleware在DOWNLOADER_MIDDLEWARES设置中激活并且REDIRECT_ENABLED设置设置为True。关于python-按照scrapy中的重定向链接，我们在StackOverflow上找到一个类似的问题：

python scrapy section code

python - 如何在 Scrapy 中发送启用的 JavaScript 和 Cookies？

我正在使用Scrapy抓取一个网站，这需要启用cooking和java脚本。我认为我不必实际处理javascript。我只需要假装启用了javascript。这是我尝试过的:1)通过以下设置启用CookieCOOKIES_ENABLED=TrueCOOKIES_DEBUG=True2)为cookies使用下载中间件DOWNLOADER_MIDDLEWARES={'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':400,'scrapy.contrib.downloadermiddleware.cooki

何在 JavaScript code 39 section python screen-scraping mechanize scrapy

python - scrapy 用户超时导致连接失败

我正在使用scrapy下载图片但出现超时错误:Retrying(failed1times):Usertimeoutcausedconnectionfailure不过，我可以使用wget立即下载图像。DOWNLOAD_TIMEOUT(scrapy参数)设置为默认180秒，因此这不应该是错误的根本原因。我试过将scrapy与代理和非代理一起使用，都给了我上述错误。最佳答案如果您正在抓取多个图像(尤其是从多个域)，那么下载将同时发生，与从命令行下载单个图像相比，每次下载可能需要更长的时间。尝试减少CONCURRENT_REQUESTS

python scrapy section strong

python - 从带有文件输出的脚本运行 Scrapy

我目前正在使用带有以下命令行参数的Scrapy:scrapycrawlmy_spider-odata.json但是，我更愿意将此命令“保存”在Python脚本中。正在关注https://doc.scrapy.org/en/latest/topics/practices.html，我有以下脚本:importscrapyfromscrapy.crawlerimportCrawlerProcessfromapkmirror_scraper.spiders.sitemap_spiderimportApkmirrorSitemapSpiderprocess=CrawlerProcess({'US

python Scrapy code section 39

python - 碎片 : Sending information to prior function

我正在使用scrapy1.1来抓取网站。该站点需要定期重新登录。我可以判断何时需要这样做，因为需要登录时会发生302重定向。基于#http://sangaline.com/post/advanced-web-scraping-tutorial/，我已经将RedirectMiddleware子类化，使位置httpheader在蜘蛛中可用:request.meta['redirect_urls']我的问题是，登录后，我设置了一个循环遍历100个页面以进行抓取的功能。可以说在15页之后我看到我必须重新登录(基于request.meta['redirect_urls']的内容)。我的代码如下所

information function response section redirect_urls python scrapy

python - 在 init 的 scrapy 管道中使用参数

我有一个scrapypipelines.py，我想得到给定的参数。在我的spider.py中，它运行完美:classMySpider(CrawlSpider):def__init__(self,host='',domain_id='',*args,**kwargs):super(MySpider,self).__init__(*args,**kwargs)printuser_id...现在，我需要在我的pipelines.py中使用“user_id”来创建类似“domain-123.db”的sqlite数据库。我在整个网络上搜索我的问题，但找不到任何解决方案。有人可以帮助我吗？PS:是

python scrapy section code spider web-scraping arguments scrapy-spider

python - 如何从 scrapy 蜘蛛回调中收集统计数据？

如何从蜘蛛回调中收集统计数据？示例classMySpider(Spider):name="myspider"start_urls=["http://example.com"]defparse(self,response):stats.set_value('foo','bar')不确定要导入什么或如何使stats一般可用。最佳答案查看statspagefromthescrapydocumentation.文档指出StatsCollector，但可能需要将fromscrapy.statsimportstats添加到您的爬虫代码中，以

统计数据 python section code stats scrapy scrapy-spider

python - 使用 Python Scrapy 时的 HTTP 403 响应

我在WindowsVista64位上使用Python.org版本2.764位。我一直在测试以下Scrapy代码以递归地抓取网站www.whoscored.com上的所有页面，该网站用于足球统计:fromscrapy.contrib.spidersimportCrawlSpider,Rulefromscrapy.contrib.linkextractors.sgmlimportSgmlLinkExtractorfromscrapy.selectorimportSelectorfromscrapy.itemimportItemfromscrapy.spiderimportBaseSpide

python scrapy strong section http