草庐IT

python晋江文学城数据分析(一)——爬虫(BeautifulSoup正则)

0引言学爬虫,拿平常看小说的绿色网站下手。爬取的数据主要分为两部分,收藏榜的小说信息和小说详情页的部分数据。1url解析1.1收藏榜url        通过点击榜单上侧选项(其实也可以用拼音猜一猜),观察url变化,寻找规律。如fw指代范围,fbsj指代发表时间,ycx指代原创性,以此类推。可以通过改变其后的数字,来改变榜单范围。而最重要的翻页就通过改变page=后的页码。    我没什么要先定的范围,就只更改page。2.1小说详情页url    随意点击任意小说详情页,可以看到主要区别就在于最后novelid的一串数字,看起来没有什么规律的数字。    但是通过后面的页面分析,可以看到小