草庐IT

爬虫攻守道 - 2023最新 - Python Selenium 实现 - 数据去伪存真,正则表达式谁与争锋 - 爬取某天气网站历史数据

前言前面写过3篇文章,分别介绍了反爬措施,JS逆向+ajax获取数据,以及正则表达式匹配开头、结尾、中间的用法。第3篇算是本文PythonSelenium爬虫实现方案的子集,大家可以参照阅读。另外本意是“攻守”,不知道为何输入法给的都是“功守道”,前面没有注意全都写错了。已经纠正重新发布。网站的反爬措施分析JS逆向,ajax获取数据正则表达式-匹配开头、结尾、中间在这个爬虫案例中,我遇到的最难部分甚至都不是破解各种反爬措施和梳理网站逻辑,而是正则表达式的书写、测试和验证,在后者上耗费的心力远超前者。js逆向方案,只需要从js代码中匹配参数名、函数名,正则使用范围还相对有限。而在本文提到的Sel