草庐IT

python - Scrapy SgmlLinkExtractor 忽略允许的链接

请看thisspiderexample在Scrapy文档中。解释是:Thisspiderwouldstartcrawlingexample.com’shomepage,collectingcategorylinks,anditemlinks,parsingthelatterwiththeparse_itemmethod.Foreachitemresponse,somedatawillbeextractedfromtheHTMLusingXPath,andaItemwillbefilledwithit.我完全复制了同一个蜘蛛,并用另一个初始url替换了“example.com”。from

python - 如何在 Heroku 云上部署 Scrapy 蜘蛛

我在scrapy中开发了几个蜘蛛,我想在Heroku云上测试它们。有人知道如何在Heroku云上部署Scrapy蜘蛛吗? 最佳答案 是的,在Heroku上部署和运行Scrapy爬虫相当简单。以一个真实的Scrapy项目为例,步骤如下:克隆项目(注意,它必须有一个requirements.txt文件,Heroku才能将其识别为Python项目):gitclonehttps://github.com/scrapinghub/testspiders.git将cffi添加到requirement.txt文件(例如cffi==1.1.0)。创

python - Scrapy 与 TOR (Windows)

我用几个蜘蛛创建了一个Scrapy项目来爬取一些网站。现在我想使用TOR来:对已抓取的服务器隐藏我的ip;将我的请求关联到不同的ip,模拟来自不同用户的访问。我已经阅读了一些关于此的信息,例如:usingtorwithscrapyframework,HowtoconnecttohttpssitewithScrapyviaPolipooverTOR?这些链接的答案对我没有帮助。要使Scrapy与TOR正常工作,我应该采取哪些步骤?编辑1:考虑到答案1,我开始安装TOR。由于我使用的是Windows,因此我下载了TORExpertBundle(https://www.torproject.

python - 为什么我在 scrapy 中收到此错误 - python3.7 语法无效

我在安装scrapy时遇到了麻烦。我已将它安装在我的Mac上,但在运行教程时出现此错误:Virtualenvs/scrapy_env/lib/python3.7/site-packages/twisted/conch/manhole.py",line154defwrite(self,data,async=False):^SyntaxError:invalidsyntax据我所知,我正在使用最新版本的所有内容。启动并运行它很痛苦。嘘。操作系统高Sierra10.13.3python3.7安装ipython我已经更新了我能想到的一切。终端线是:scrapyshellhttp://quote

python - 碎片 : storing the data

我是python和scrapy的新手。我正在尝试遵循Scrapy教程,但我不明白storagestep的逻辑.scrapycrawlspidername-oitems.json-tjsonscrapycrawlspidername--setFEED_URI=output.csv--setFEED_FORMAT=csv我不明白:-o-t--设置谢谢你的帮助 最佳答案 您可以通过在项目目录中键入scrapycrawl-h查看可用命令列表。scrapycrawlspidername-oitems.json-tjson-o指定转储项目的输出

python - 使用 scrapyd 一次运行多个 scrapy 蜘蛛

我正在使用scrapy对于一个我想抓取多个站点(可能是数百个)的项目,我必须为每个站点编写一个特定的蜘蛛。我可以在部署到scrapyd的项目中安排一个蜘蛛,使用:curlhttp://localhost:6800/schedule.json-dproject=myproject-dspider=spider2但是我如何一次安排一个项目中的所有蜘蛛?非常感谢所有帮助! 最佳答案 我一次运行200多个蜘蛛的解决方案是为项目创建一个自定义命令。参见http://doc.scrapy.org/en/latest/topics/command

python - scrapy 错误 :exceptions. ValueError:请求 url 中缺少方案:

我使用tryexcept来避免错误,但我的终端仍然显示错误但没有显示日志消息:raiseValueError('Missingschemeinrequesturl:%s'%self._url)exceptions.ValueError:Missingschemeinrequesturl:当scrapy没有获取image_urls时,如何避免这个错误?请指导我,非常感谢。try:item['image_urls']=["".join(image.extract())]except:log.msg("noimagefoung!.url={}".format(response.url),le

python - 'NoneType' 对象在 scrapy\twisted\openssl 中没有属性 '_app_data'

在使用scrapy进行抓取的过程中,我的日志中时不时出现一个错误。它似乎不在我的代码中的任何地方,看起来像是twisted\openssl中的东西。知道是什么原因造成的以及如何摆脱它吗?此处的堆栈跟踪:[Launcher,27487/stderr]Errorduringinfo_callbackTraceback(mostrecentcalllast):File"/opt/webapps/link_crawler/lib/python2.7/site-packages/twisted/protocols/tls.py",line415,indataReceivedself._write

python - Scrapy框架的代理IP

我正在使用Python和Scrapy框架开发一个网络爬虫项目。它从电子商务购物网站抓取大约10k网页。整个项目运行良好,但在将代码从测试服务器移至生产服务器之前,我想选择一个更好的代理ip提供商服务,这样我就不必担心我的IP阻塞或拒绝访问网站我的蜘蛛。到目前为止,我一直在使用Scrapy中的中间件从各种网站可用的免费代理ip列表中手动轮换iplikethis现在我对我应该选择的选项感到困惑从http://www.ninjasproxy.com/购买高级代理列表或http://hidemyass.com/使用TOR使用VPN服务喜欢http://www.hotspotshield.com

python - Scrapy FormRequest 发送 JSON

我正在尝试创建一个可以发送content-type:application/json的FormRequest。这是我的尝试:yieldFormRequest("abc.someurl.com",formdata=json.dumps({"referenceId":123,"referenceType":456}),headers={'content-type':'application/json'},callback=self.parseResult2)如果我使用json.dumps()来处理formdata=中的表单数据,我得到的错误是"exceptions.ValueError:n