SCRAPY

python - 如何通过 TOR 上的 Polipo 使用 Scrapy 连接到 https 站点？

不完全确定这里的问题是什么。运行Python2.7.3和Scrapy0.16.5我创建了一个非常简单的Scrapy蜘蛛来测试连接到我的本地Polipo代理，这样我就可以通过TOR发送请求。我的爬虫基本代码如下:fromscrapy.spiderimportBaseSpiderclassTorSpider(BaseSpider):name="tor"allowed_domains=["check.torproject.org"]start_urls=["https://check.torproject.org"]defparse(self,response):printresponse.

python - 如何防止 Scrapy 对请求 URL 进行 URL 编码

我希望Scrapy不对我的请求进行URL编码。我看到scrapy.http.Request正在导入scrapy.utils.url，它导入了包含变量_ALWAYS_SAFE_BYTES的w3lib.url。我只需要向_ALWAYS_SAFE_BYTES添加一组字符，但我不确定如何在我的蜘蛛类中执行此操作。scrapy.http.Request相关行:fp.update(canonicalize_url(request.url))canonicalize_url来自scrapy.utils.url，scrapy.utils.url中的相关行:path=safe_url_string(_u

URL python code section scrapy url-encoding web-crawler

python - Mac OS X El Capitan - Scrapy/Python 导入错误 : cannot import name xmlrpc_client

我正在尝试在MacOSXElCapitan上使用Scrapy。我安装了zsh，并尝试了所有可以在网上找到的方法来解决此问题。我也看过ScrapythrowsImportError:cannotimportnamexmlrpc_client无法解决我的问题!通过brew安装Python并添加“pipinstallscrapy”:➜DriverEBVwhichpython/usr/local/bin/python我的.zshrc包含以下行:exportPATH=/usr/local/bin:$PATHexportPYTHONPATH="/Library/Python/2.7/site-pa

xmlrpc_client Capitan upgrade site-packages scrapy python macos pip

Python scrapy ReactorNotRestartable 替代品

我一直在尝试使用具有以下功能的Scrapy在Python中制作一个应用程序:restapi(我是用flask做的)监听所有爬取/抓取请求并在爬取后返回响应。(爬取部分足够短,这样连接就可以一直保持到爬取完成。)我可以使用以下代码执行此操作:items=[]defadd_item(item):items.append(item)#setupcrawlercrawler=Crawler(SpiderClass,settings=get_project_settings())crawler.signals.connect(add_item,signal=signals.item_pass

ReactorNotRestartable 替代品 34 site-packages packages python flask scrapy reactor twisted.internet

python - 无法导入 Scrapy 的设置模块或其 scrapy.cfg

这是一篇很长的文章，但经过广泛研究后我找不到解决方案。我在OSX10.8上有一个Django1.4.1/Scrapy0.14.4混合项目，我使用Django项目的manage.py命令控制Scrapy，如here所述。.例如，调用pythonmanage.pyscrapycrawlexample_spider工作没有问题。现在我要设置scrapydweb服务来部署我的蜘蛛程序。但是，当我执行pythonmanage.pyscrapyserver然后我得到这个异常:scrapy.exceptions.NotConfigured:Unabletofindscrapy.cfgfiletoin

python Scrapy code project django environment-variables

python - 无法让 Scrapy 管道工作

我有使用Scrapy框架编写的蜘蛛。我在让任何管道工作时遇到了一些麻烦。我的pipelines.py中有以下代码:classFilePipeline(object):def__init__(self):self.file=open('items.txt','wb')defprocess_item(self,item,spider):line=item['title']+'\n'self.file.write(line)returnitem我的CrawlSpider子类有这一行来激活这个类的管道。ITEM_PIPELINES=['event.pipelines.FilePipeline'

管道工 python section code pre web-crawler pipeline scrapy scraper

python - 将 scrapy 蜘蛛构建到我自己的程序中，我不想从命令行调用 scrapy)

与这个问题类似:stackoverflow:running-multiple-spiders-in-scrapy我想知道，我可以从另一个python程序中运行整个scrapy项目吗？假设我想构建一个需要抓取多个不同站点的完整程序，并且我为每个站点构建了整个scrapy项目。我不想从命令行运行，而是想运行这些蜘蛛并从中获取信息。我可以在python中使用mongoDBok，我已经可以构建包含蜘蛛的scrapy项目，但现在只需将它们全部合并到一个应用程序中。我想运行一次应用程序，并有能力从我自己的程序控制多个蜘蛛为什么要这样做？好吧，这个应用程序也可以使用API连接到其他站点，并且需要实时

scrapy python self crawler web-scraping

python - 如何使用 scrapy 将多个页面的数据收集到单个数据结构中

我正在尝试从站点抓取数据。数据的结构是多个对象，每个对象都有一组数据。例如，有姓名、年龄和职业的人。我的问题是这些数据在网站中分为两个级别。第一页是，比如说，一个姓名和年龄列表，带有指向每个人个人资料页面的链接。他们的个人资料页面列出了他们的职业。我已经有一个用python编写的scrapy蜘蛛，它可以从顶层收集数据并通过多个分页爬行。但是，我如何从内页收集数据，同时保持它链接到合适的对象？目前，我将输出结构化为json{[name='name',age='age',occupation='occupation'],[name='name',age='age',occupation='

python scrapy 39 section page json web-crawler

python - Scrapy: start_requests() 的正确使用方法是什么？

我的爬虫是这样设置的classCustomSpider(CrawlSpider):name='custombot'allowed_domains=['www.domain.com']start_urls=['http://www.domain.com/some-url']rules=(Rule(SgmlLinkExtractor(allow=r'.*?something/'),callback='do_stuff',follow=True),)defstart_requests(self):returnRequest('http://www.domain.com/some-other-

start_requests 使用方法 start code python scrapy

python - 如何在 scrapy-splash 中设置启动超时？

我使用scrapy-splash抓取网页，并在docker上运行splash服务。常见的:dockerrun-p8050:8050scrapinghub/splash--max-timeout3600但是我遇到了504错误。"error":{"info":{"timeout":30},"description":"Timeoutexceededrenderingpage","error":504,"type":"GlobalTimeoutError"}尽管我尝试添加splash.resource_timeout、request:set_timeout或SPLASH_URL='http:

中设 scrapy-splash code section splash python scrapy splash-js-render

35 36 373839 40 41