草庐IT

scrapy-pipeline

全部标签

python - 使用 python-Scrapy 抓取动态内容

免责声明:我在StackOverflow上看到了许多其他类似的帖子,并尝试以相同的方式进行操作,但它们似乎不适用于该网站。我正在使用Python-Scrapy从koovs.com获取数据。但是,我无法获得动态生成的产品尺寸。具体来说,如果有人可以指导我从this的下拉菜单中获取“不可用”尺寸标签。链接,不胜感激。我可以静态获取尺码列表,但这样做我只能获得尺码列表,而不是其中哪些是可用的。 最佳答案 您也可以使用ScrapyJS来解决它(不需要selenium和真正的浏览器):ThislibraryprovidesScrapy+Jav

python - 使用 python-Scrapy 抓取动态内容

免责声明:我在StackOverflow上看到了许多其他类似的帖子,并尝试以相同的方式进行操作,但它们似乎不适用于该网站。我正在使用Python-Scrapy从koovs.com获取数据。但是,我无法获得动态生成的产品尺寸。具体来说,如果有人可以指导我从this的下拉菜单中获取“不可用”尺寸标签。链接,不胜感激。我可以静态获取尺码列表,但这样做我只能获得尺码列表,而不是其中哪些是可用的。 最佳答案 您也可以使用ScrapyJS来解决它(不需要selenium和真正的浏览器):ThislibraryprovidesScrapy+Jav

python - 使用带有 Scrapy 的 css 选择器获取 href

我想得到href值(value):我试过了:Link=Link1.css('span[class=title]a::text').extract()[0]但我只是得到中的文本.如何获取href中的链接? 最佳答案 您正在寻找的是:Link=Link1.css('span[class=title]a::attr(href)').extract()[0]由于您还匹配span“类”属性,因此您甚至可以编写Link=Link1.css('span.titlea::attr(href)').extract()[0]请注意::text伪元素和:

python - 使用带有 Scrapy 的 css 选择器获取 href

我想得到href值(value):我试过了:Link=Link1.css('span[class=title]a::text').extract()[0]但我只是得到中的文本.如何获取href中的链接? 最佳答案 您正在寻找的是:Link=Link1.css('span[class=title]a::attr(href)').extract()[0]由于您还匹配span“类”属性,因此您甚至可以编写Link=Link1.css('span.titlea::attr(href)').extract()[0]请注意::text伪元素和:

python - 在 Celery 任务中运行 Scrapy 蜘蛛

我有一个Django站点,当用户请求它时会发生抓取,我的代码会在新进程中启动一个Scrapyspider独立脚本。当然,这不适用于用户的增加。类似这样的:classStandAloneSpider(Spider):#aregularspidersettings.overrides['LOG_ENABLED']=True#moresettingscanbechanged...crawler=CrawlerProcess(settings)crawler.install()crawler.configure()spider=StandAloneSpider()crawler.crawl(s

python - 在 Celery 任务中运行 Scrapy 蜘蛛

我有一个Django站点,当用户请求它时会发生抓取,我的代码会在新进程中启动一个Scrapyspider独立脚本。当然,这不适用于用户的增加。类似这样的:classStandAloneSpider(Spider):#aregularspidersettings.overrides['LOG_ENABLED']=True#moresettingscanbechanged...crawler=CrawlerProcess(settings)crawler.install()crawler.configure()spider=StandAloneSpider()crawler.crawl(s

python - 在 Scrapy 中访问 django 模型

是否可以在Scrapy管道中访问我的django模型,以便我可以将抓取的数据直接保存到我的模型中?我见过this,但我真的不知道如何设置它? 最佳答案 如果其他人有同样的问题,我就是这样解决的。我将此添加到我的scrapysettings.py文件中:defsetup_django_env(path):importimp,osfromdjango.core.managementimportsetup_environf,filename,desc=imp.find_module('settings',[path])project=im

python - 在 Scrapy 中访问 django 模型

是否可以在Scrapy管道中访问我的django模型,以便我可以将抓取的数据直接保存到我的模型中?我见过this,但我真的不知道如何设置它? 最佳答案 如果其他人有同样的问题,我就是这样解决的。我将此添加到我的scrapysettings.py文件中:defsetup_django_env(path):importimp,osfromdjango.core.managementimportsetup_environf,filename,desc=imp.find_module('settings',[path])project=im

python - Scrapy 抛出 ImportError : cannot import name xmlrpc_client

通过pip安装Scrapy并拥有Python2.7.10:scrapyTraceback(mostrecentcalllast):File"/usr/local/bin/scrapy",line7,infromscrapy.cmdlineimportexecuteFile"/Library/Python/2.7/site-packages/scrapy/__init__.py",line48,infromscrapy.spidersimportSpiderFile"/Library/Python/2.7/site-packages/scrapy/spiders/__init__.py"

python - Scrapy 抛出 ImportError : cannot import name xmlrpc_client

通过pip安装Scrapy并拥有Python2.7.10:scrapyTraceback(mostrecentcalllast):File"/usr/local/bin/scrapy",line7,infromscrapy.cmdlineimportexecuteFile"/Library/Python/2.7/site-packages/scrapy/__init__.py",line48,infromscrapy.spidersimportSpiderFile"/Library/Python/2.7/site-packages/scrapy/spiders/__init__.py"