草庐IT

上千种

全部标签

【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

目录一、爬取目标二、展示爬取结果三、爬虫代码四、同步视频五、附完整源码您好,我是@马哥python说,一枚10年程序猿。一、爬取目标之前,我分享过一些B站的爬虫:【Python爬虫案例】用Python爬取李子柒B站视频数据【Python爬虫案例】用python爬哔哩哔哩搜索结果【爬虫+情感判定+Top10高频词+词云图】"谷爱凌"热门弹幕python舆情分析但我学习群中小伙伴频繁讨论B站评论的爬取,所以,再分享一个B站视频评论的爬虫。二、展示爬取结果首先,看下部分爬取数据:​爬取字段含:视频链接、评论页码、评论作者、评论时间、IP属地、点赞数、评论内容。三、爬虫代码导入需要用到的库:impor

【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

目录一、爬取目标二、展示爬取结果三、爬虫代码四、同步视频五、附完整源码您好,我是@马哥python说,一枚10年程序猿。一、爬取目标之前,我分享过一些B站的爬虫:【Python爬虫案例】用Python爬取李子柒B站视频数据【Python爬虫案例】用python爬哔哩哔哩搜索结果【爬虫+情感判定+Top10高频词+词云图】"谷爱凌"热门弹幕python舆情分析但我学习群中小伙伴频繁讨论B站评论的爬取,所以,再分享一个B站视频评论的爬虫。二、展示爬取结果首先,看下部分爬取数据:​爬取字段含:视频链接、评论页码、评论作者、评论时间、IP属地、点赞数、评论内容。三、爬虫代码导入需要用到的库:impor

【2023微博签到爬虫】用python爬上千条m端微博签到数据

一、爬取目标大家好,我是@马哥python说,一枚10年程序猿。今天分享一期python爬虫案例,爬取目标是新浪微博的微博签到数据,字段包含:页码,微博id,微博bid,微博作者,发布时间,微博内容,签到地点,转发数,评论数,点赞数经过分析调研,发现微博有3种访问方式,分别是:PC端网页:https://weibo.com/移动端:https://weibo.cn/手机端:https://m.weibo.cn/最终决定,通过手机端爬取。这里,给大家分享一个爬虫小技巧。当目标网站既存在PC网页端,又有手机移动端,建议爬取移动端,原因是:移动端一般网页结构简单,并且反爬能力较弱,更方便爬虫爬取。二

【2023微博签到爬虫】用python爬上千条m端微博签到数据

一、爬取目标大家好,我是@马哥python说,一枚10年程序猿。今天分享一期python爬虫案例,爬取目标是新浪微博的微博签到数据,字段包含:页码,微博id,微博bid,微博作者,发布时间,微博内容,签到地点,转发数,评论数,点赞数经过分析调研,发现微博有3种访问方式,分别是:PC端网页:https://weibo.com/移动端:https://weibo.cn/手机端:https://m.weibo.cn/最终决定,通过手机端爬取。这里,给大家分享一个爬虫小技巧。当目标网站既存在PC网页端,又有手机移动端,建议爬取移动端,原因是:移动端一般网页结构简单,并且反爬能力较弱,更方便爬虫爬取。二

轻松应对上千节点失效,去哪儿网混沌工程自动演练实践

​一、混沌工程价值探讨因为混沌工程是一个比较新兴的技术,所以不可避免地会面临一个问题:当我们要落地混沌工程时,需要对其进行价值的论证,再决定我们需要投入的人力,以及期望达到的效果。作为技术行业的从业者,我们经常会了解到各大公司出现的宕机的情况,比如去年韩国电信网络的崩溃,以及Facebook服务器宕机的事件,国内各大厂商尤其是云厂商其实都会出现大规模的宕机故障。大部分人看到这些新闻都是吃瓜心态,但是作为技术行业的从业者,这类问题也许某一天就会发生在我们身上,出现在我们的机房和公司里,并且需要我们去解决。​1、去哪儿网的系统群情况接下来我简单介绍去哪儿网的系统群情况。目前线上运行的活跃的应用有3

轻松应对上千节点失效,去哪儿网混沌工程自动演练实践

​一、混沌工程价值探讨因为混沌工程是一个比较新兴的技术,所以不可避免地会面临一个问题:当我们要落地混沌工程时,需要对其进行价值的论证,再决定我们需要投入的人力,以及期望达到的效果。作为技术行业的从业者,我们经常会了解到各大公司出现的宕机的情况,比如去年韩国电信网络的崩溃,以及Facebook服务器宕机的事件,国内各大厂商尤其是云厂商其实都会出现大规模的宕机故障。大部分人看到这些新闻都是吃瓜心态,但是作为技术行业的从业者,这类问题也许某一天就会发生在我们身上,出现在我们的机房和公司里,并且需要我们去解决。​1、去哪儿网的系统群情况接下来我简单介绍去哪儿网的系统群情况。目前线上运行的活跃的应用有3