一、爬取老番茄B站数据前几天开发了一个python爬虫脚本,成功爬取了B站李子柒的视频数据,共142个视频,17个字段,含:视频标题,视频地址,视频上传时间,视频时长,是否合作视频,视频分区,弹幕数,播放量,点赞数,投币量,收藏量,评论数,转发量,实时爬取时间基于这个Python爬虫程序,我更换了up主的UID,把李子柒的uid换成了老番茄的uid,便成功爬取了老番茄的B站数据。共393个视频,17个字段,字段同上。这里展示下爬取到的前20个视频数据:爬到的数据基于爬取的老番茄B站数据,用python做了以下基础数据分析的开发。二、python数据分析1、读取数据源importpandasas
我在mongodb中有一个非常大的上限集合。鉴于上限集合结构是可预测的(即预定义排序、预定义内存占用等),是否有更好的方法来获取插入的LATEST项目上的光标而不是迭代?换句话说,我现在正在做的是获取我的集合的大小(n),然后创建一个游标,将skip=n-1设置为将我放在集合的末尾。然后我迭代光标并处理集合中的所有新添加。这种方法的问题是我的收藏量很大。假设有1100万条记录。这需要20分钟才能跳过。这意味着当我的光标开始发出数据时,它落后了20分钟。 最佳答案 试试db.cappedCollection.find().limit(
我在mongodb中有一个非常大的上限集合。鉴于上限集合结构是可预测的(即预定义排序、预定义内存占用等),是否有更好的方法来获取插入的LATEST项目上的光标而不是迭代?换句话说,我现在正在做的是获取我的集合的大小(n),然后创建一个游标,将skip=n-1设置为将我放在集合的末尾。然后我迭代光标并处理集合中的所有新添加。这种方法的问题是我的收藏量很大。假设有1100万条记录。这需要20分钟才能跳过。这意味着当我的光标开始发出数据时,它落后了20分钟。 最佳答案 试试db.cappedCollection.find().limit(
目录一、爬取老番茄B站数据二、python数据分析1、读取数据源2、查看数据概况3、查看异常值4.1、查看最大值(max函数)4.2、查看最小值(min函数)5.1、查看TOP3的视频(nlargest函数)5.2、查看倒数3的视频(nsmallest函数)6、查看相关性7.1、可视化分析-plot7.2、可视化分析-pyecharts三、同步讲解视频四、附完整源码一、爬取老番茄B站数据前几天开发了一个python爬虫脚本,成功爬取了B站李子柒的视频数据,共142个视频,17个字段,含:视频标题,视频地址,视频上传时间,视频时长,是否合作视频,视频分区,弹幕数,播放量,点赞数,投币量,收藏量,
目录一、爬取老番茄B站数据二、python数据分析1、读取数据源2、查看数据概况3、查看异常值4.1、查看最大值(max函数)4.2、查看最小值(min函数)5.1、查看TOP3的视频(nlargest函数)5.2、查看倒数3的视频(nsmallest函数)6、查看相关性7.1、可视化分析-plot7.2、可视化分析-pyecharts三、同步讲解视频四、附完整源码一、爬取老番茄B站数据前几天开发了一个python爬虫脚本,成功爬取了B站李子柒的视频数据,共142个视频,17个字段,含:视频标题,视频地址,视频上传时间,视频时长,是否合作视频,视频分区,弹幕数,播放量,点赞数,投币量,收藏量,