SCRAPY

python - 对从 Python 脚本中运行 Scrapy 感到困惑

正在关注document，我可以从Python脚本运行scrapy，但我无法获得scrapy结果。这是我的蜘蛛:fromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportHtmlXPathSelectorfromitemsimportDmozItemclassDmozSpider(BaseSpider):name="douban"allowed_domains=["example.com"]start_urls=["http://www.example.com/group/xxx/discussion"]defparse(sel

中运困惑 code scrapy import python web-scraping

python - 为什么 scrapy 在尝试抓取和解析网站时会为我抛出错误？

下面的代码classSiteSpider(BaseSpider):name="some_site.com"allowed_domains=["some_site.com"]start_urls=["some_site.com/something/another/PRODUCT-CATEGORY1_10652_-1__85667",]rules=(Rule(SgmlLinkExtractor(allow=('some_site.com/something/another/PRODUCT-CATEGORY_(.*)',))),#Extractlinksmatching'item.php'a

python scrapy parse section screen-scraping twisted

javascript - 使用 Scrapy 获取 JavaScript 函数的参数

我想知道是否可以使用Scrapy从类似于此的代码中提取JavaScript函数的参数:varmap;functioninitialize(){varfenway=newgoogle.maps.LatLng(43.2640611,2.9388228);};}我想提取坐标43.2640611和2.9388228。最佳答案这是re()的地方方法会有所帮助。想法是定位script通过xpath()标记并使用re()提取lat和lng来自script标签的内容。来自scrapyshell的演示:$scrapyshellindex.html

javascript code section script python regex web-scraping scrapy

python - 如何在scrapy中提交表单？

我尝试使用scrapy完成登录并收集我的项目提交计数。这是代码。fromscrapy.itemimportItem,Fieldfromscrapy.httpimportFormRequestfromscrapy.spiderimportSpiderfromscrapy.utils.responseimportopen_in_browserclassGitSpider(Spider):name="github"allowed_domains=["github.com"]start_urls=["https://www.github.com/login"]defparse(self,res

何在 python response section code forms web-scraping scrapy

python - python3创建scrapy项目的方法

我使用MacOS，它有python2.7和python3.4。我使用pipinstall命令在python2.7中安装scrapy。Buy我也使用pip3install命令在python3.4中安装scrapy...看了scrapy.org的官方文档，知道scrapy只支持python2.7。当我使用命令scrapystartprojecttutorial时，它会返回下面的错误。如何在python2.7中使用命令scrapystartprojecttutorial？File"/Library/Frameworks/Python.framework/Versions/3.4/bin/sc

python python3 code scrapy python-2.7

python - 蜘蛛scrapy中的读取设置

我写了一个小的scrapy蜘蛛。以下是我的代码classElectronicsSpider(scrapy.Spider):name="electronics"allowed_domains=["www.olx.com"]start_urls=['http://www.olx.com/']defparse(self,response):pass我的问题是，我想使用设置读取名称、allowed_domains和start_urls。我怎样才能做到这一点？我试过导入fromscrapy.settingsimportSettings也试过了def__init__(self,crawler):s

python scrapy section settings code

python - Scrapy:将 response.body 保存为 html 文件？

我的蜘蛛可以工作，但我无法下载我在.html文件中抓取的网站正文。如果我写self.html_fil.write('test')那么它工作正常。我不知道如何将tulpe转换为字符串。我使用Python3.6蜘蛛:classExampleSpider(scrapy.Spider):name="example"allowed_domains=['google.com']start_urls=['http://google.com/']def__init__(self):self.path_to_html=html_path+'index.html'self.path_to_header=h

response python html self django scrapy web-crawler

python - 在python中使用scrapy执行Javascript提交表单函数

我正在使用scrapy框架抓取一个站点，但在单击用于打开另一个页面的javascript链接时遇到了问题。我可以将页面上的代码识别为:Accountant 谁能建议我如何在scaroy中执行该javascript并通过它获取另一个页面，我可以从该页面获取数据。提前致谢最佳答案查看下面有关如何将scrapy与selenium一起使用的片段。抓取速度会变慢，因为您不只是下载html，而且您将获得对DOM的完全访问权限。注意:我已经复制粘贴了这段代码，因为之前提供的链接不再有效。#Snippetimportedfromsni

python Javascript selenium section self scrapy

Python Scrapy 无法从类中提取文本

请看这段html代码:online428xxfantasia我想获取里面的文本(在本例中为428)。我用过这个:defparse(self,response):sel=Selector(response)cams=sel.css('header.online')forcamincams:printcam.css('text').extract()我想我使用了正确的css选择器，但我得到的结果是空的。有什么帮助吗？最佳答案 CSS选择器don'tnormallyhavesyntaxtoextracttextcontent.但是Scr

Python Scrapy code section extract css python-2.7 css-selectors

python - 为什么我的 scrapy 蜘蛛不遵循我的项目解析函数中的请求回调？

我正在抓取一个网站来检查各种产品的库存状态。不幸的是，这需要实际点击产品页面上的“添加到购物车”并检查下一页的消息以确定是否有库存(即它需要解析两个响应)。我关注了excellentdocumentation对于这种情况，我编写了我的解析函数以返回一个Request对象，该对象带有对我的辅助解析函数的回调。但是，这个函数很少被调用。大多数产品只会在日志中看到“Beforereturnrequest”，但对于一小部分产品，它确实会被正确调用。知道这里出了什么问题吗？我已经没有想法了。foo/spiders/atlantic_firearms_spider.py:fromscrapy.co

python scrapy atlantic_firearms atlanticfirearms firearms

32 33 343536 37 38