草庐IT

CrawlSpider

全部标签

python - 为什么我的 Scrapy CrawlSpider 规则不起作用?

我已经成功地使用Scrapy编写了一个非常简单的爬虫,具有这些给定的约束:存储所有链接信息(例如:anchor文本、页面标题),因此有2个回调使用CrawlSpider来利用规则,因此没有BaseSpider它运行良好,除了如果我向第一个请求添加回调它不会执行规则!这是我的代码:(有效但不正确,有一个实例)fromscrapy.contrib.spidersimportCrawlSpider,Rulefromscrapy.selectorimportHtmlXPathSelectorfromscrapy.httpimportRequestfromscrapySpider.itemsim

python - 用于 AJAX 内容的 Scrapy CrawlSpider

我正在尝试抓取新闻文章的站点。我的start_url包含:(1)每篇文章的链接:http://example.com/symbol/TSLA和(2)一个“更多”按钮,它进行AJAX调用,在同一start_url中动态加载更多文章:http://example.com/account/ajax_headlines_content?type=in_focus_articles&page=0&slugs=tsla&is_symbol_page=trueAJAX调用的一个参数是“页面”,每次单击“更多”按钮时该参数都会递增。例如,点击“更多”一次,会额外加载n篇文章,并在“更多”按钮的onCl

python - Scrapy CrawlSpider 不抓取第一个着陆页

我是Scrapy的新手,我正在做一个抓取练习,我正在使用CrawlSpider。虽然Scrapy框架工作得很好并且它遵循相关链接,但我似乎无法让CrawlSpider抓取第一个链接(主页/登陆页面)。相反,它会直接抓取规则确定的链接,但不会抓取链接所在的着陆页。我不知道如何解决这个问题,因为不建议覆盖CrawlSpider的解析方法。修改follow=True/False也不会产生任何好的结果。这是代码片段:classDownloadSpider(CrawlSpider):name='downloader'allowed_domains=['bnt-chemicals.de']star

python - 如何使用 scrapy CrawlSpider 请求发送 cookie?

我正在尝试创建这个Redditscraper使用Python的Scrapy框架。我使用CrawSpider爬取了Reddit及其子版block。但是,当我遇到包含成人内容的页面时,该网站会要求我提供cookieover18=1。所以,我一直在尝试为蜘蛛发出的每个请求发送一个cookie,但是,它没有成功。这是我的爬虫代码。如您所见,我尝试使用start_requests()方法为每个蜘蛛请求添加一个cookie。这里有人能告诉我怎么做吗?或者我做错了什么?fromscrapyimportSpiderfromscrapy.spidersimportCrawlSpider,Rulefrom

scrapy -- CrawlSpider类

CrawlSpider类是什么?是Spider的一个子类区别:Spider是获取到URL进行手动发送请求:yieldscrapy.Request(url=new_url,callback=self.parse)是通过提取器类:LinkExtractor,提前到页面所有符合条件的URL,然后用Rule类对符合条件的URL自动发送请求创建CrawlSpider爬虫的命令:scrapygenspider-tcrawlxxx(爬虫名称)www.xxxx.com(爬取的URL)基于CrawlSpider创建的爬虫类,代码示例:importscrapyfromscrapy.linkextractorsim

scrapy -- CrawlSpider类

CrawlSpider类是什么?是Spider的一个子类区别:Spider是获取到URL进行手动发送请求:yieldscrapy.Request(url=new_url,callback=self.parse)是通过提取器类:LinkExtractor,提前到页面所有符合条件的URL,然后用Rule类对符合条件的URL自动发送请求创建CrawlSpider爬虫的命令:scrapygenspider-tcrawlxxx(爬虫名称)www.xxxx.com(爬取的URL)基于CrawlSpider创建的爬虫类,代码示例:importscrapyfromscrapy.linkextractorsim
12