SCRAPY

python - 从 Django View 启动 Scrapy

我对Scrapy的使用经验有限，每次使用都是通过终端的命令。如何从我的django模板中获取我的表单数据(要抓取的url)以与scrapy通信以开始抓取？到目前为止，我只想到从django的View中获取表单返回的数据，然后尝试进入scrapy目录中的spider.py，将表单数据的url添加到蜘蛛的start_urls中。从那里开始，我真的不知道如何触发实际的爬行，因为我习惯于通过我的终端使用“scrapycrawldmoz”之类的命令严格执行它。谢谢。微小的编辑:刚刚发现了scrapyd...我想我可能正朝着正确的方向前进。最佳答案

Python、Scrapy、管道 : function "process_item" not getting called

我有一个非常简单的代码，如下所示。抓取没问题，我可以看到所有生成正确数据的print语句。在Pipeline中，初始化工作正常。但是，process_item函数不会被调用，因为函数开头的print语句永远不会执行。蜘蛛:comosham.pyimportscrapyfromscrapy.spiderimportSpiderfromscrapy.selectorimportSelectorfromscrapy.httpimportRequestfromactivityadvisor.itemsimportComoShamLocationfromactivityadvisor.items

process_item amp 39 item code python scrapy pipeline

python - 我如何开始使用 python 在 web Scrapy 中编写单元测试？

classAljazeeraSpider(XMLFeedSpider):name="aljazeera"allowed_domains=["aljazeera.com"]start_urls=['http://www.aljazeera.com/',]defparse(self,response):hxs=HtmlXPathSelector(response)#ThexPathselectortitles=hxs.select('//div[contains(@class,"SkyScrapperBoxes")]/div[contains(@class,"skyscLines")]')

python 编写 39 response item unit-testing web-scraping scrapy scrapy-spider

python - 导入错误 : cannot import name '_win32stdio'

我正在使用Scrapy框架从网站上抓取数据，但在命令提示符下出现以下错误:ImportError:cannotimportname'_win32stdio'Traceback作为屏幕截图附上。如果需要我的程序目录的目录结构，请回复。最佳答案如果你做一些小的调整，Scrapy可以在Windows上与Python3一起工作:将_win32stdio和_pollingfile复制到site-packages下的适当目录。即，twisted-dir\internet。从https://github.com/twisted/twisted

amp python twisted section code visual-studio scrapy

python - 在循环中使用 Scrapy Itemloader

我想在他们的教程中使用的Dmoz网站上使用Scrapy，但我不只是通过使用Item/Field对来阅读书籍URL(http://www.dmoz.org/Computers/Programming/Languages/Python/Books/)中的书籍，我想创建一个Itemloader，它将读入所需的值(名称、标题、描述)。这是我的items.py文件:fromscrapy.itemimportItem,Fieldfromscrapy.contrib.loaderimportItemLoaderfromscrapy.contrib.loader.processorimportIden

Itemloader python 39 class section web-scraping scrapy

python - Scrapy延迟请求

每次我运行我的代码时，我的ip都会被禁止。我需要帮助将每个请求延迟10秒。我试图在代码中放置DOWNLOAD_DELAY但它没有给出任何结果。感谢您的帮助。#itemclassincludedhereclassDmozItem(scrapy.Item):#definethefieldsforyouritemherelike:link=scrapy.Field()attr=scrapy.Field()classDmozSpider(scrapy.Spider):name="dmoz"allowed_domains=["craigslist.org"]start_urls=["https:

python Scrapy 34 response item web-crawler

python - 运行 Scrapy 但出现错误 : No module named _util

我已经安装了Scrapy，并在python中导入它，一切看起来都很好。但是当我尝试http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html中的示例时它会导致错误.我运行scrapycrawlswspider，然后我得到:>2018-05-1414:24:16[scrapy.utils.log]INFO:Scrapy1.5.0started(bot:tutorial)>2018-05-1414:24:16[scrapy.utils.log]INFO:Versions:lxml3.2.1.0,>libxml22.9.1,

python Scrapy site-packages gt python-2.7

python - 无法在 Scrapy 中定义自定义下载器中间件

我正在尝试在Scrapy中设置自定义下载器中间件类。我怀疑我错过了一些明显的东西，但我已经阅读了几次文档并且没有找到解决方案。我对本应是一项极其简单的任务感到有点沮丧，因此希望有人能够为我提供一些见解。我已将以下行添加到我的settings.py文件中。DOWNLOADER_MIDDLEWARES={'myproject.middlewares.TestDownloader':400}添加该行并运行项目后，我收到有关模块中间件不存在的错误。经过一番研究，我发现你需要在middlewares文件夹中添加一个__init__.py文件，以便Python识别它。我这样做了，现在出现以下错误:

自定 python code TestDownloader section scrapy

Python Scrapy - 从 mysql 填充 start_urls

我正在尝试使用spider.py从MYSQL表中选择一个SELECT来填充start_url。当我运行“scrapyrunspiderspider.py”时，我没有得到任何输出，只是它没有错误地完成。我已经在python脚本中测试了SELECT查询，并且start_url中填充了MYSQL表中的条目。蜘蛛.pyfromscrapy.spiderimportBaseSpiderfromscrapy.selectorimportSelectorimportMySQLdbclassProductsSpider(BaseSpider):name="Products"allowed_domain

start_urls Python start section code mysql scrapy web-crawler

python - 使用 scrapy 抓取图像数据

我正在使用Scrapy来抓取与amazon.com上的产品相关的图像。我将如何解析图像数据？我通常使用XPath。但是，我无法找到图像的XPath(缩略图除外)。例如，这就是我解析标题的方式。title=response.xpath('//h1[@id="title"]/span/text()').extract()该项目的链接是:https://www.amazon.com/dp/B01N068GIX?psc=1 最佳答案似乎可以从页面源代码中存在的JavaScript中提取图像。我用了js2xml将JavaScript源代码转

python scrapy section noreferrer https xpath

12 13 141516 17 18