草庐IT

【技术流吃瓜】python可视化大屏舆情分析“张天爱“事件微博评论

马哥python说 2023-04-16 原文

目录

一、事件背景

大家好,我是马哥python说,一枚10年程序猿。

演员张天爱于2022.8.25号在网上爆出一段音频 "惯犯,希望所以女孩擦亮眼睛。"

至今已有2.5亿次观看量,瞬间冲上热搜。

二、微热点分析

以下数据来源:微热点

从舆情分析网站上来看,从热度指数的变化趋势来看,"张天爱"的热度在08月25日22时达到了92.56的峰值。

"张天爱"全网热度:

"张天爱"网络媒体的评价指标:

"张天爱"关键词分析:

"张天爱"地域分析:

二、自开发Python舆情分析

2.1 Python爬虫

从博文URL地址中找出id。

目标链接地址的id参数值就是id:

原文查看

把id带入到我的Python爬虫代码中,下面展示部分爬虫代码。

关键逻辑,就是max_id的处理:

if page == 1:  # 第一页,没有max_id参数
	url = 'https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id_type=0'.format(weibo_id, weibo_id)
else:  # 非第一页,需要max_id参数
	if max_id == '0':  # 如果发现max_id为0,说明没有下一页了,break结束循环
		print('max_id is 0, break now')
		break
	url = 'https://m.weibo.cn/comments/hotflow?id={}&mid={}&max_id_type=0&max_id={}'.format(weibo_id,
	                                                                                        weibo_id,
	                                                                                        max_id)

如果是第一页,不用传max_id参数。

如果非第一页,需要传max_id参数,它的值来自于上一页的r.json()['data']['max_id']

首先,向页面发送请求:

r = requests.get(url, headers=headers)  # 发送请求
print(r.status_code)  # 查看响应码
print(r.json())  # 查看响应内容

下面,是解析数据的处理逻辑:

datas = r.json()['data']['data']
for data in datas:
	page_list.append(page)
	id_list.append(data['id'])
	dr = re.compile(r'<[^>]+>', re.S)  # 用正则表达式清洗评论数据
	text2 = dr.sub('', data['text'])
	text_list.append(text2)  # 评论内容
	time_list.append(trans_time(v_str=data['created_at']))  # 评论时间
	like_count_list.append(data['like_count'])  # 评论点赞数
	source_list.append(data['source'])  # 评论者IP归属地
	user_name_list.append(data['user']['screen_name'])  # 评论者姓名
	user_id_list.append(data['user']['id'])  # 评论者id
	user_gender_list.append(tran_gender(data['user']['gender']))  # 评论者性别
	follow_count_list.append(data['user']['follow_count'])  # 评论者关注数
	followers_count_list.append(data['user']['followers_count'])  # 评论者粉丝数

最后,是保存数据的处理逻辑:

df = pd.DataFrame(
	{
		'id': [weibo_id] * len(time_list),
		'评论页码': page_list,
		'评论id': id_list,
		'评论时间': time_list,
		'评论点赞数': like_count_list,
		'评论者IP归属地': source_list,
		'评论者姓名': user_name_list,
		'评论者id': user_id_list,
		'评论者性别': user_gender_list,
		'评论者关注数': follow_count_list,
		'评论者粉丝数': followers_count_list,
		'评论内容': text_list,
	}
)
if os.path.exists(v_comment_file):  # 如果文件存在,不再设置表头
	header = False
else:  # 否则,设置csv文件表头
	header = True
# 保存csv文件
df.to_csv(v_comment_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
print('结果保存成功:{}'.format(v_comment_file))

篇幅有限,请求头、cookie、循环页码、数据清洗等其他细节不再赘述。

看下最终数据:

2.2 可视化大屏

首先,看下最终大屏交互效果:

这个大屏,包含了5个图表:

  1. 大标题-Line
  2. 词云图-Wordcloud
  3. 条形图-Bar
  4. 饼图-Pie
  5. 地图-Map

下面,依次讲解代码实现。

2.2.1 大标题

由于pyecharts组件没有专门用作标题的图表,我决定灵活运用Line组件实现大标题。

line3 = (
	Line(init_opts=opts.InitOpts(width="1000px",  # 宽度
	                             height="625px",  # 高度
	                             bg_color={"type": "pattern", "image": JsCode("img"),
	                                       "repeat": "repeat", }))  # 设置背景图片
		.add_xaxis([None])  # 插入空数据
		.add_yaxis("", [None])  # 插入空数据
		.set_global_opts(
		title_opts=opts.TitleOpts(title=v_title,
		                          pos_left='center',
		                          title_textstyle_opts=opts.TextStyleOpts(font_size=45,
		                                                                  color='#51c2d5',
		                                                                  align='left'),
		                          pos_top='top'),
		yaxis_opts=opts.AxisOpts(is_show=False),  # 不显示y轴
		xaxis_opts=opts.AxisOpts(is_show=False))  # 不显示x轴
)
# 设置背景图片
line3.add_js_funcs(
	"""
	var img = new Image(); img.src = '大屏背景.jpg';
	"""
)
line3.render('大标题.html')
print('页面渲染完毕:大标题.html')

这里最关键的逻辑,就是背景图片的处理。我找了一个张天爱的图片:

然后用add_js_funcs代码把此图片设置为整个大屏的背景图。

大标题效果:

2.2.2 词云图

首先,把评论数据清洗出来:

cmt_list = df['评论内容'].values.tolist()  # 转换成列表
cmt_list = [str(i) for i in cmt_list]  # 数据清洗
cmt_str = ' '.join(cmt_list)  # 转换成字符串

然后,将清洗后的数据,带入词云图函数,核心代码:

wc = WordCloud(init_opts=opts.InitOpts(width=chart_width, height=chart_height, theme=theme_config, chart_id='wc1'))
wc.add(series_name="词汇",
       data_pair=data,
       word_gap=1,
       word_size_range=[5, 30],
       mask_image='张天爱背景图.png',
       )  # 增加数据
wc.set_global_opts(
	title_opts=opts.TitleOpts(pos_left='center',
	                          title="张天爱评论-词云图",
	                          title_textstyle_opts=opts.TextStyleOpts(font_size=20)  # 设置标题
	                          ),
	tooltip_opts=opts.TooltipOpts(is_show=True),  # 不显示工具箱
)
wc.render('张天爱词云图.html')  # 生成html文件
print('渲染完成:' + '张天爱词云图.html')

看下效果:

2.2.3 条形图

针对评论数据的TOP10高频词,绘制出条形图。
核心代码:

bar = Bar(
	init_opts=opts.InitOpts(theme=theme_config, width=chart_width, height=chart_height,
	                        chart_id='bar_cmt'))  # 初始化条形图
bar.add_xaxis(x_data)  # 增加x轴数据
bar.add_yaxis("数量", y_data)  # 增加y轴数据
bar.reversal_axis()  # 设置水平方向
bar.set_series_opts(label_opts=opts.LabelOpts(position="right"))  # Label出现位置
bar.set_global_opts(
	legend_opts=opts.LegendOpts(pos_left='right'),
	title_opts=opts.TitleOpts(title=v_title, pos_left='center'),  # 标题
	toolbox_opts=opts.ToolboxOpts(is_show=False, ),  # 不显示工具箱
	xaxis_opts=opts.AxisOpts(name="数量", axislabel_opts={"rotate": 0}),  # x轴名称
	yaxis_opts=opts.AxisOpts(name="关键词",
	                         axislabel_opts=opts.LabelOpts(font_size=9, rotate=0),  # y轴名称
	                         ))
bar.render(v_title + ".html")  # 生成html文件
print('渲染完成:' + v_title + '.html')

看下效果:

2.2.4 饼图(玫瑰图)

首先,针对评论数据,用snownlp库做情感分析判定。

for comment in v_cmt_list:
	tag = ''
	sentiments_score = SnowNLP(comment).sentiments
	if sentiments_score < 0.4:  # 情感分小于0.4判定为消极
		tag = '消极'
		neg_count += 1
	elif 0.4 <= sentiments_score <= 0.6:  # 情感分在[0.4,0.6]直接判定为中性
		tag = '中性'
		mid_count += 1
	else:  # 情感分大于0.6判定为积极
		tag = '积极'
		pos_count += 1
	score_list.append(sentiments_score)  # 得分值
	tag_list.append(tag)  # 判定结果
df['情感得分'] = score_list
df['分析结果'] = tag_list

然后,将统计数据带入饼图函数,部分核心代码:

# 画饼图
pie = (
	Pie(init_opts=opts.InitOpts(theme=theme_config, width=chart_width, height=chart_width, chart_id='pie1'))
		.add(series_name="情感分布",  # 系列名称
	         data_pair=[['正能量', pos_count],  # 添加数据
	                    ['中性', mid_count],
	                    ['负能量', neg_count]],
	         rosetype="radius",  # 是否展示成南丁格尔图
	         radius=["30%", "55%"],  # 扇区圆心角展现数据的百分比,半径展现数据的大小
	         )  # 加入数据
		.set_global_opts(  # 全局设置项
		title_opts=opts.TitleOpts(title=v_title, pos_left='center'),  # 标题
		legend_opts=opts.LegendOpts(pos_left='right', orient='vertical')  # 图例设置项,靠右,竖向排列
	)
		.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")))  # 样式设置项
pie.render(v_title + '.html')  # 生成html文件
print('渲染完成:' + v_title + '.html')

看下效果:

2.2.5 地图

把评论者的IP归属地统计求和,求和后的总数分布在地图上。

df['评论者IP归属地'] = df['评论者IP归属地'].astype(str).str.replace('来自', '')  # 数据清洗
loc_grp = df.groupby('评论者IP归属地').count()['评论内容']
data_list = list(zip(loc_grp.index.tolist(), loc_grp.values.tolist()))

数据准备好之后,带入地图函数,部分核心代码:

f_map = (
	Map(init_opts=opts.InitOpts(width=chart_width,
	                            height=chart_height,
	                            theme=theme_config,
	                            page_title=v_title,
	                            chart_id='map1',
	                            bg_color=None))
		.add(series_name="评论数量",
	         data_pair=v_data_list,
	         maptype="china",  # 地图类型
	         is_map_symbol_show=False)
		.set_global_opts(
		title_opts=opts.TitleOpts(title=v_title,
		                          pos_left="center", ),
		legend_opts=opts.LegendOpts(  # 设置图例
			is_show=True, pos_top="40px", pos_right="30px"),
		visualmap_opts=opts.VisualMapOpts(  # 设置视觉映射
			is_piecewise=True, range_text=['高', '低'], pieces=[  # 分段显示
				# {"min": 10000, "color": "#751d0d"},
				{"min": 121, "max": 150, "color": "#37561a"},
				{"min": 91, "max": 120, "color": "#006400"},
				{"min": 61, "max": 90, "color": "#4d9116"},
				{"min": 31, "max": 60, "color": "#77bb40"},
				{"min": 11, "max": 30, "color": "#b8db9b"},
				{"min": 0, "max": 10, "color": "#e5edd6"}
			]),
	)
		.set_series_opts(label_opts=opts.LabelOpts(is_show=True, font_size=8, ),
	                     markpoint_opts=opts.MarkPointOpts(
		                     symbol_size=[90, 90], symbol='circle'),
	                     effect_opts=opts.EffectOpts(is_show='True', )
	                     )
)
f_map.render(v_title + '.html')
print('渲染完成:' + v_title + '.html')

看下效果:

三、演示视频

效果演示:
https://www.zhihu.com/zvideo/1546516025184866304


四、完整源码

附完整源码:点击此处get完整源码!


推荐阅读:
【Python可视化大屏】全流程揭秘实现可视化数据大屏的背后原理!

有关【技术流吃瓜】python可视化大屏舆情分析“张天爱“事件微博评论的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby - Ruby 中的波形可视化 - 2

    我即将开始一个将录制和编辑音频文件的项目,我正在寻找一个好的库(最好是Ruby,但会考虑Java或.NET以外的任何库)以进行实时可视化波形。有人知道我应该从哪里开始搜索吗? 最佳答案 要流入浏览器的数据量很大。Flash或Flex图表可能是唯一能提高内存效率的解决方案。Javascript图表往往会因大型数据集而崩溃。 关于ruby-Ruby中的波形可视化,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.c

  3. Python 相当于 Perl/Ruby ||= - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。

  4. java - 什么相当于 ruby​​ 的 rack 或 python 的 Java wsgi? - 2

    什么是ruby​​的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht

  5. 华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2

    华为OD机试题本篇题目:明明的随机数题目输入描述输出描述:示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od,od薪资待遇,od机试题清单华为OD机试真题大全,用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o

  6. Unity 热更新技术 | (三) Lua语言基本介绍及下载安装 - 2

    ?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------

  7. python - 如何读取 MIDI 文件、更改其乐器并将其写回? - 2

    我想解析一个已经存在的.mid文件,改变它的乐器,例如从“acousticgrandpiano”到“violin”,然后将它保存回去或作为另一个.mid文件。根据我在文档中看到的内容,该乐器通过program_change或patch_change指令进行了更改,但我找不到任何在已经存在的MIDI文件中执行此操作的库.他们似乎都只支持从头开始创建的MIDI文件。 最佳答案 MIDIpackage会为您完成此操作,但具体方法取决于midi文件的原始内容。一个MIDI文件由一个或多个音轨组成,每个音轨是十六个channel中任何一个上的

  8. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  9. MIMO-OFDM无线通信技术及MATLAB实现(1)无线信道:传播和衰落 - 2

     MIMO技术的优缺点优点通过下面三个增益来总体概括:阵列增益。阵列增益是指由于接收机通过对接收信号的相干合并而活得的平均SNR的提高。在发射机不知道信道信息的情况下,MIMO系统可以获得的阵列增益与接收天线数成正比复用增益。在采用空间复用方案的MIMO系统中,可以获得复用增益,即信道容量成倍增加。信道容量的增加与min(Nt,Nr)成正比分集增益。在采用空间分集方案的MIMO系统中,可以获得分集增益,即可靠性性能的改善。分集增益用独立衰落支路数来描述,即分集指数。在使用了空时编码的MIMO系统中,由于接收天线或发射天线之间的间距较远,可认为它们各自的大尺度衰落是相互独立的,因此分布式MIMO

  10. python ffmpeg 使用 pyav 转换 一组图像 到 视频 - 2

    2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p

随机推荐