目录一、爬取老番茄B站数据二、python数据分析1、读取数据源2、查看数据概况3、查看异常值4.1、查看最大值(max函数)4.2、查看最小值(min函数)5.1、查看TOP3的视频(nlargest函数)5.2、查看倒数3的视频(nsmallest函数)6、查看相关性7.1、可视化分析-plot7.2、可视化分析-pyecharts三、同步讲解视频四、附完整源码一、爬取老番茄B站数据前几天开发了一个python爬虫脚本,成功爬取了B站李子柒的视频数据,共142个视频,17个字段,含:视频标题,视频地址,视频上传时间,视频时长,是否合作视频,视频分区,弹幕数,播放量,点赞数,投币量,收藏量,
前言用于实现通过牌子逆向查主播信息这个功能。插件基于Nonebot2开发,链接:https://github.com/Ikaros-521/nonebot_plugin_searchBiliInfo工程下载github:https://github.com/Ikaros-521/get_bili_medal_listgitee:https://gitee.com/ikaros-521/get_bili_medal_list目录结构data.py数据源自vtbs.moe1.py用于获取数据2.py用于中断时候的下标检索data_medal.py用于存储用户结果数据APIhttps://api.l
前言用于实现通过牌子逆向查主播信息这个功能。插件基于Nonebot2开发,链接:https://github.com/Ikaros-521/nonebot_plugin_searchBiliInfo工程下载github:https://github.com/Ikaros-521/get_bili_medal_listgitee:https://gitee.com/ikaros-521/get_bili_medal_list目录结构data.py数据源自vtbs.moe1.py用于获取数据2.py用于中断时候的下标检索data_medal.py用于存储用户结果数据APIhttps://api.l
分享概要一、业务场景二、架构演进三、架构设计四、稳定性五、效率 一、业务场景 在开始讲解之前,我先为大家介绍一下B站的业务场景。B站的业务大体上可以分为以下几类: 1、点播类业务 点播类业务就是大家经常看的视频以及稿件之类相关的业务,这类数据使用场景的特点有: 数据一致性要求较高耗时敏感流量大可用性要求高 2、直播类业务 直播类业务对应B站的S12、跨晚、拜年祭等,有以下几个特点: 数据一致性要求较高热点数据,如S12的主播房间平时流量中等,大型直播流量会呈现爆炸性增长可用性要求高 3、游戏类业务 数据一致性要求较高耗时敏感流量大可用性要求高 4、电商类业务 如B站本身的会员购,这类业务的要求
分享概要一、业务场景二、架构演进三、架构设计四、稳定性五、效率 一、业务场景 在开始讲解之前,我先为大家介绍一下B站的业务场景。B站的业务大体上可以分为以下几类: 1、点播类业务 点播类业务就是大家经常看的视频以及稿件之类相关的业务,这类数据使用场景的特点有: 数据一致性要求较高耗时敏感流量大可用性要求高 2、直播类业务 直播类业务对应B站的S12、跨晚、拜年祭等,有以下几个特点: 数据一致性要求较高热点数据,如S12的主播房间平时流量中等,大型直播流量会呈现爆炸性增长可用性要求高 3、游戏类业务 数据一致性要求较高耗时敏感流量大可用性要求高 4、电商类业务 如B站本身的会员购,这类业务的要求
一、前言在上一节,我们新建了工程,做好了准备。本节在工程中加入B站网页,屏蔽页面广告。二、工程配置2.1、基础配置配置程序启动事件,填入以下代码加载网页("https://m.bilibili.com/index.html")--加载网页为软件自带的函数,后面做函数介绍--链接地址百度搜索bilibili,把浏览器地址栏的链接复制过来点击右上角三角符号,我们可以看到页面如下:网页控制网页控制如下图填写,域名或URL我们填写B站的域名,m.bilibili.com,域名https://www.baidu.com/xxx.html,去除https://和后面斜杠之后的就是域名,其它网站类似。删除元
一、前言在上一节,我们新建了工程,做好了准备。本节在工程中加入B站网页,屏蔽页面广告。二、工程配置2.1、基础配置配置程序启动事件,填入以下代码加载网页("https://m.bilibili.com/index.html")--加载网页为软件自带的函数,后面做函数介绍--链接地址百度搜索bilibili,把浏览器地址栏的链接复制过来点击右上角三角符号,我们可以看到页面如下:网页控制网页控制如下图填写,域名或URL我们填写B站的域名,m.bilibili.com,域名https://www.baidu.com/xxx.html,去除https://和后面斜杠之后的就是域名,其它网站类似。删除元
一、背景介绍 数据驱动理念已被各行各业所熟知,核心环节包括数据采集、埋点规划、数据建模、数据分析和指标体系构建。在用户行为数据领域,对常见的多维数据模型进行信息提炼和模型整合,可以形成一套常见的数据分析方法来发现用户行为的内在联系,能更好洞察用户的行为习惯和行为规律,帮助企业挖掘用户数据的商业价值。 行业内最早可追溯到GoogleAnalytics埋点分析工具,国内较早开始这方面研究的是百度大数据分析平台;随着15年后国内大数据兴起,神策的用户行为分析平台、GrowthingIO的增长平台等独立数据分析平台公司相继成立;18年后一些发展较快的大厂经过几年数据积累也有了自己的分析平台,例如美团点
一、背景介绍 数据驱动理念已被各行各业所熟知,核心环节包括数据采集、埋点规划、数据建模、数据分析和指标体系构建。在用户行为数据领域,对常见的多维数据模型进行信息提炼和模型整合,可以形成一套常见的数据分析方法来发现用户行为的内在联系,能更好洞察用户的行为习惯和行为规律,帮助企业挖掘用户数据的商业价值。 行业内最早可追溯到GoogleAnalytics埋点分析工具,国内较早开始这方面研究的是百度大数据分析平台;随着15年后国内大数据兴起,神策的用户行为分析平台、GrowthingIO的增长平台等独立数据分析平台公司相继成立;18年后一些发展较快的大厂经过几年数据积累也有了自己的分析平台,例如美团点
01网络设计背景1.1稳定性和扩展性 在设计任何网络结构时,网络的稳定性和扩展性是两个必然要考虑的因素。丢包、拥塞、扩容三大标准决定了网络质量的上限和下限。任何程度的网络质量波动都会对点直播视频业务的生产和消费造成最为直接的影响。基于B站始终把用户体验放在第一位的前提下,在设计网络前必须对网络的流量模型,业务对网络的要求做出充分调研。继而从设备选型、网络规划、技术应用、协议设计、生态演进等多维度做出最贴合当下B站客户需求的网络方案并落地实施。1.2带宽和流量模式随着视频化时代到来,承载业务的数据中心其规模也与日俱增,新增的数据中心所包含的服务器容量从几千台迅速攀升至数万台。传统的树形网络结构中