scrapy-splash

python - Scrapy - 关注 RSS 链接

我想知道是否有人曾尝试使用以下方法提取/跟踪RSS项目链接SgmlLinkExtractor/CrawlSpider。我无法让它工作...我正在使用以下规则:rules=(Rule(SgmlLinkExtractor(tags=('link',),attrs=False),follow=True,callback='parse_article'),)(请记住，RSS链接位于link标记中)。我不确定如何告诉SgmlLinkExtractor提取text()链接而不是搜索属性...欢迎任何帮助，提前致谢最佳答案 CrawlSpide

python - Scrapy:捕获具有特定 HTTP 服务器代码的响应

我们有一个非常标准的Scrapy项目(Scrapy0.24)。我想捕获特定的HTTP响应代码，例如200、500、502、503、504等。类似的东西:classSpider(...):defparse(...):processesHTTP200defparse_500(...):processesHTTP500errorsdefparse_502(...):processesHTTP502errors...我们怎样才能做到这一点？最佳答案默认情况下，Scrapy只处理状态码为200-300的响应。LetScrapyhandle

python Scrapy code section web-scraping scrapy-spider

python - scrapy:中间件/管道单例

我正在创建一个本地响应缓存，我正在为其创建一个Pipeline，因为我需要根据从站点收集的ID来存储项目的信息。现在我还需要创建一个DownloaderMiddleware，因为根据我之前存储的ID，我不想用新的Request访问该站点，所以我在将Request发送到服务器之前拦截它，检查该ID是否已存在于我的缓存中，如果存在，则只从我的缓存中返回相同的项目。现在你看到Pipeline和Middleware需要一起工作，所以分离看起来不是很干净(我也有我想要的变量独特的)，但是当我在各自的设置上进行设置时:DOWNLOADER_MIDDLEWARES={'myproject.urlca

python scrapy code section Singleton

python - Scrapy 解析 javascript

我在页面上有一个javascript，如下所示:newShopify.OptionSelectors("product-select",{product:{"id":185310341,"title":"10.Design|Siyah\u0026beyazkalpli",我想得到“185310341”。我在谷歌上搜索了大约几个小时，但找不到任何东西，我希望你能帮助我。我怎样才能抓取那个javascript并获得那个id？我试过那个代码:id=sel.search('"id":(.*?),',text).group(1)printid但是我得到了:exceptions.Attribute

javascript python section 34 code regex web-scraping scrapy web-crawler

python - 在 OS X 上的 virtualenv 中为 scrapy 安装加密时发生错误

关闭。这个问题需要debuggingdetails.它目前不接受答案。编辑问题以包含desiredbehavior,aspecificproblemorerror,andtheshortestcodenecessarytoreproducetheproblem.这将有助于其他人回答问题。关闭6年前。Improvethisquestion我在OSX10.11上的virtualenv中使用pip安装scrapy。当它安装密码时，它说:building'_openssl'extensioncc-fno-strict-aliasing-fno-common-dynamic-archi386-a

virtualenv python section code 39 macos cryptography scrapy cc

python - Scrapy: 在一个请求失败时(例如404,500)，如何请求另一个备选请求？

我对scrapy有疑问。在一个请求失败时(例如404,500)，如何请求另一个替代请求？比如两个链接都可以获取价格信息，一个失败，自动请求另一个。最佳答案在请求中使用“errback”errback=self.error_handler其中error_handler是一个函数(就像回调函数一样)，在此函数中检查错误代码并发出替代请求。参见scrapy文档中的errback:http://doc.scrapy.org/en/latest/topics/request-response.html

备选例如 section scrapy errback python web-scraping http-status-code-404

python - 启动新的 scrapy 项目时出错

我已经使用Scrapy网站上提供的Ubuntu软件包安装了Scrapy。但是在开始一个Scrapy项目时scrapystartprojecttest我收到错误消息。Traceback(mostrecentcalllast):File"/usr/bin/scrapy",line5,infrompkg_resourcesimportload_entry_pointFile"build/bdist.linux-x86_64/egg/pkg_resources/__init__.py",line3084,inFile"build/bdist.linux-x86_64/egg/pkg_resou

时出 python pkg_resources resources pyasn1 scrapy

python - python中的Scrapy Crawler无法跟踪链接？

我用python的scrapy工具写了一个python的爬虫。以下是python代码:fromscrapy.contrib.spidersimportCrawlSpider,Rulefromscrapy.contrib.linkextractors.sgmlimportSgmlLinkExtractorfromscrapy.selectorimportHtmlXPathSelector#fromscrapy.itemimportItemfroma11ypi.itemsimportAYpiItemclassAYpiSpider(CrawlSpider):name="AYpi"allowe

python Crawler 34 scrapy

python - 如何通过 TOR 上的 Polipo 使用 Scrapy 连接到 https 站点？

不完全确定这里的问题是什么。运行Python2.7.3和Scrapy0.16.5我创建了一个非常简单的Scrapy蜘蛛来测试连接到我的本地Polipo代理，这样我就可以通过TOR发送请求。我的爬虫基本代码如下:fromscrapy.spiderimportBaseSpiderclassTorSpider(BaseSpider):name="tor"allowed_domains=["check.torproject.org"]start_urls=["https://check.torproject.org"]defparse(self,response):printresponse.

python Polipo torproject 0100 2013 scrapy tor

python - 如何防止 Scrapy 对请求 URL 进行 URL 编码

我希望Scrapy不对我的请求进行URL编码。我看到scrapy.http.Request正在导入scrapy.utils.url，它导入了包含变量_ALWAYS_SAFE_BYTES的w3lib.url。我只需要向_ALWAYS_SAFE_BYTES添加一组字符，但我不确定如何在我的蜘蛛类中执行此操作。scrapy.http.Request相关行:fp.update(canonicalize_url(request.url))canonicalize_url来自scrapy.utils.url，scrapy.utils.url中的相关行:path=safe_url_string(_u

URL python code section scrapy url-encoding web-crawler

32 33 343536 37 38