草庐IT

python - 从 Django View 启动 Scrapy

我对Scrapy的使用经验有限,每次使用都是通过终端的命令。如何从我的django模板中获取我的表单数据(要抓取的url)以与scrapy通信以开始抓取?到目前为止,我只想到从django的View中获取表单返回的数据,然后尝试进入scrapy目录中的spider.py,将表单数据的url添加到蜘蛛的start_urls中。从那里开始,我真的不知道如何触发实际的爬行,因为我习惯于通过我的终端使用“scrapycrawldmoz”之类的命令严格执行它。谢谢。微小的编辑:刚刚发现了scrapyd...我想我可能正朝着正确的方向前进。 最佳答案

Python、Scrapy、管道 : function "process_item" not getting called

我有一个非常简单的代码,如下所示。抓取没问题,我可以看到所有生成正确数据的print语句。在Pipeline中,初始化工作正常。但是,process_item函数不会被调用,因为函数开头的print语句永远不会执行。蜘蛛:comosham.pyimportscrapyfromscrapy.spiderimportSpiderfromscrapy.selectorimportSelectorfromscrapy.httpimportRequestfromactivityadvisor.itemsimportComoShamLocationfromactivityadvisor.items

python - 我如何开始使用 python 在 web Scrapy 中编写单元测试?

classAljazeeraSpider(XMLFeedSpider):name="aljazeera"allowed_domains=["aljazeera.com"]start_urls=['http://www.aljazeera.com/',]defparse(self,response):hxs=HtmlXPathSelector(response)#ThexPathselectortitles=hxs.select('//div[contains(@class,"SkyScrapperBoxes")]/div[contains(@class,"skyscLines")]')

python - 导入错误 : cannot import name '_win32stdio'

我正在使用Scrapy框架从网站上抓取数据,但在命令提示符下出现以下错误:ImportError:cannotimportname'_win32stdio'Traceback作为屏幕截图附上。如果需要我的程序目录的目录结构,请回复。 最佳答案 如果你做一些小的调整,Scrapy可以在Windows上与Python3一起工作:将_win32stdio和_pollingfile复制到site-packages下的适当目录。即,twisted-dir\internet。从https://github.com/twisted/twisted

python - 在循环中使用 Scrapy Itemloader

我想在他们的教程中使用的Dmoz网站上使用Scrapy,但我不只是通过使用Item/Field对来阅读书籍URL(http://www.dmoz.org/Computers/Programming/Languages/Python/Books/)中的书籍,我想创建一个Itemloader,它将读入所需的值(名称、标题、描述)。这是我的items.py文件:fromscrapy.itemimportItem,Fieldfromscrapy.contrib.loaderimportItemLoaderfromscrapy.contrib.loader.processorimportIden

python - Scrapy延迟请求

每次我运行我的代码时,我的ip都会被禁止。我需要帮助将每个请求延迟10秒。我试图在代码中放置DOWNLOAD_DELAY但它没有给出任何结果。感谢您的帮助。#itemclassincludedhereclassDmozItem(scrapy.Item):#definethefieldsforyouritemherelike:link=scrapy.Field()attr=scrapy.Field()classDmozSpider(scrapy.Spider):name="dmoz"allowed_domains=["craigslist.org"]start_urls=["https:

python - 运行 Scrapy 但出现错误 : No module named _util

我已经安装了Scrapy,并在python中导入它,一切看起来都很好。但是当我尝试http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html中的示例时它会导致错误.我运行scrapycrawlswspider,然后我得到:>2018-05-1414:24:16[scrapy.utils.log]INFO:Scrapy1.5.0started(bot:tutorial)>2018-05-1414:24:16[scrapy.utils.log]INFO:Versions:lxml3.2.1.0,>libxml22.9.1,

python - 无法在 Scrapy 中定义自定义下载器中间件

我正在尝试在Scrapy中设置自定义下载器中间件类。我怀疑我错过了一些明显的东西,但我已经阅读了几次文档并且没有找到解决方案。我对本应是一项极其简单的任务感到有点沮丧,因此希望有人能够为我提供一些见解。我已将以下行添加到我的settings.py文件中。DOWNLOADER_MIDDLEWARES={'myproject.middlewares.TestDownloader':400}添加该行并运行项目后,我收到有关模块中间件不存在的错误。经过一番研究,我发现你需要在middlewares文件夹中添加一个__init__.py文件,以便Python识别它。我这样做了,现在出现以下错误:

Python Scrapy - 从 mysql 填充 start_urls

我正在尝试使用spider.py从MYSQL表中选择一个SELECT来填充start_url。当我运行“scrapyrunspiderspider.py”时,我没有得到任何输出,只是它没有错误地完成。我已经在python脚本中测试了SELECT查询,并且start_url中填充了MYSQL表中的条目。蜘蛛.pyfromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportSelectorimportMySQLdbclassProductsSpider(BaseSpider):name="Products"allowed_domain

python - 使用 scrapy 抓取图像数据

我正在使用Scrapy来抓取与amazon.com上的产品相关的图像。我将如何解析图像数据?我通常使用XPath。但是,我无法找到图像的XPath(缩略图除外)。例如,这就是我解析标题的方式。title=response.xpath('//h1[@id="title"]/span/text()').extract()该项目的链接是:https://www.amazon.com/dp/B01N068GIX?psc=1 最佳答案 似乎可以从页面源代码中存在的JavaScript中提取图像。我用了js2xml将JavaScript源代码转