2946481_草庐IT

python爬虫爬取博客园

python爬取博客园接蚂蚁学pythonP5生产者消费者爬虫数据重复问题先看访问地址访问地址是https://www.cnblogs.com/#p2但是实际访问地址是https://www.cnblogs.com说明其中存在猫腻；像这种我们给定指定页码，按理应该是post请求才对；于是乎往下看了几个连接然后再看一下payload发现这个post请求才是我们想要的链接其中PageIndex就是我们要设置的页数代码撸起来#Author:Lovyya#File:blog_spiderimportrequestsimportjsonfrombs4importBeautifulSoupimportre

python爬虫爬取博客园