温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :)
本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析,实现电影的检索、热门电影排行和电影的分类推荐,同时对电影的评论进行关键词抽取和情感分析。
基于python的电影数据可视化分析系统的功能组成如下图所示:

系统的其他页面的访问需要注册登录,否则访问受限,其首页注册登录页面如下:

互联网电影资料库,隶属于xxx公司旗下网站,是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库,包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。
def get_movie_detail(url):
"""获取电影发行的详细信息"""
response = requests.get(url, headers=headers)
response.encoding = 'utf8'
soup = BeautifulSoup(response.text, 'lxml')
intro_text = soup.find('span', class_='a-size-medium').text.strip()
summary = soup.find('div', class_='mojo-summary-values')
items = summary.find_all('div', class_='a-section a-spacing-none')
movie_detail = {}
for item in items:
spans = item.find_all('span')
key = spans[0].text.strip()
if key == 'Domestic Distributor': # 经销商
movie_detail['Domestic_Distributor'] = spans[1].text.strip().split('See')[0]
elif key == 'Domestic Opening': # 国内开放
opening = item.find('span', class_='money').text.strip()
movie_detail['Domestic_Opening'] = float(opening.replace(',', '')[1:])
elif key == 'Budget': # 电影发行时候的预算
budget = item.find('span', class_='money').text.strip()
movie_detail['Budget'] = float(budget.replace(',', '')[1:])
elif key == 'Earliest Release Date': # 首次发行时间
movie_detail['Earliest_Release_Date'] = spans[1].text.strip().split('(')[0].strip()
elif key == 'MPAA':
movie_detail['MPAA'] = spans[1].text.strip()
elif key == 'Running Time': # 电影时长
run_time = spans[1].text.strip()
run_time = int(run_time.split('hr')[0].strip()) * 60 + int(run_time.split('hr')[1].strip()[:-3])
movie_detail['Running_Time'] = run_time
elif key == 'Genres': # 电影题材
genres = spans[1].text.strip()
movie_detail['Genres'] = genres.split()
else:
continue
mojo_gutter = soup.find('div', class_='a-section mojo-h-scroll')
# 发行地域数
areas = mojo_gutter.select('table')
movie_detail['Relase_Areas'] = len(areas)
# 发行的版本数
release_trs = mojo_gutter.select('tr')
movie_detail['Relase_Count'] = len(release_trs) - len(areas)
return movie_detail








实时抓取国内某电影评论网站不同分类下的TOP电影排名数据:
def top20_movie_analysis(cate):
""" Top20 电影 """
url = 'https://movie.xxxx.com/j/search_subjects?type=movie&tag={}&sort=recommend&page_limit=20&page_start=0'.format(
cate)
print(url)
headers['Cookie'] = 'your cookie'
headers['Host'] = 'movie.xxxx.com'
headers['Referer'] = 'https://movie.xxxx.com/explore'
response = requests.get(url, headers=headers)
response.encoding = 'utf8'
resp = response.json()['subjects']
movies = []
for movie in resp:
movie_url = movie['url']
movie_info = {
'电影名称': movie['title'],
'评分': movie['rate'],
}
print(movie_url)
# 获取影片的简介信息
resp = requests.get(movie_url, headers=headers)
resp.encoding = 'utf8'
soup = BeautifulSoup(resp.text, 'lxml')
summary = soup.find('span', attrs={'property': 'v:summary'})
# 年份
year = soup.find('span', attrs={'class': 'year'}).text[1:-1]
movie_info['年代'] = year
info = soup.find('div', attrs={'id': 'info'})
for d in info.text.split('\n'):
if '语言' in d:
movie_info['语言'] = d.split(':')[1].strip()
if '类型' in d:
movie_info['类型'] = d.split(':')[1].strip().split('/')
if '制片国家/地区' in d:
movie_info['制片国家/地区'] = d.split(':')[1].strip()
if '语言' not in movie_info:
movie_info['语言'] = '未知'
if '类型' not in movie_info:
movie_info['类型'] = ['未知']
if '制片国家/地区' not in movie_info:
movie_info['制片国家/地区'] = '未知'
movies.append(movie_info)
time.sleep(1)
# 按照评分排序
results = {}
movies = sorted(movies, key=lambda x: x['评分'], reverse=True)
results['评分排序_电影'] = [m['电影名称'] for m in movies]
results['评分排序_评分'] = [m['评分'] for m in movies]
# 按照时间排序
movies = sorted(movies, key=lambda x: x['年代'], reverse=True)
results['年代排序_电影'] = [m['电影名称'] for m in movies]
results['年代排序_年代'] = [int(m['年代']) for m in movies]
# 地区排序
diqu = {}
for m in movies:
for c in m['制片国家/地区'].split('/'):
c = c.strip()
if c not in diqu:
diqu[c] = 0
diqu[c] += 1
results['地区排序_地区'] = list(diqu.keys())
results['地区排序_数量'] = list(diqu.values())
# 类型排序
leixin = {}
for m in movies:
for l in m['类型']:
l = l.strip()
if l not in diqu:
leixin[l] = 0
leixin[l] += 1
results['类型排序_类型'] = list(leixin.keys())
results['类型排序_数量'] = list(leixin.values())
return jsonify(results)

3.6 电影评论分析对抓取的电影评论信息进行文本预处理,包括去除空字符、重复字符和标点符号等,并进行基于 tfidf 和情感词典的情感分析:
......
count = 0
while True:
......
start = 10 * (len(comments) // 10 + 1)
comment_url = movie_url + '/reviews?start={}'.format(start)
response = requests.get(comment_url, headers=clean_headers)
response.encoding = 'utf8'
response = response.text
soup = BeautifulSoup(response, 'lxml')
comment_divs = soup.select('div.review-item')
count += 1
for comment_div in comment_divs:
com_time = comment_div.find('span', class_='main-meta').text
comment_ori = re.sub(r'\s+', ' ', comment_div.find('div', class_='short-content').text.strip()).replace(
'...(展开)', '').replace('(展开)', '')
if len(comments) < 200:
# 评论情感分析
postive_score = SnowNLP(comment_ori).sentiments - random.random() / 10
# 评论日期
com_time = com_time.strip().split(' ')[0]
# 评论分词
comment = ' '.join(jieba.cut(comment_ori))
comments.add((comment, com_time, postive_score, comment_ori))
else:
break
start += 10
comments = list(comments)

本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析,实现电影的检索、热门电影排行和电影的分类推荐,同时对电影的评论进行关键词抽取和情感分析。
欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。
技术交流认准下方 CSDN 官方提供的学长 Wechat / QQ 名片 :)
精彩专栏推荐订阅:

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我即将开始一个将录制和编辑音频文件的项目,我正在寻找一个好的库(最好是Ruby,但会考虑Java或.NET以外的任何库)以进行实时可视化波形。有人知道我应该从哪里开始搜索吗? 最佳答案 要流入浏览器的数据量很大。Flash或Flex图表可能是唯一能提高内存效率的解决方案。Javascript图表往往会因大型数据集而崩溃。 关于ruby-Ruby中的波形可视化,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.c
我想为我的Rails网络应用程序提供推荐功能。特别是,我想向新注册的用户推荐他可能想要关注的其他用户。Rails中是否有用于此目的的引擎/gem?如果没有,我应该从哪里开始构建它?谢谢。 最佳答案 有Coletivogemhttps://github.com/diogenes/coletivo我试了一下。在MySQL上运行。Neo4jhttp://neo4j.org真的很容易实现一个“跟随谁”。事实上,大多数展示其能力的样本都涉及“跟随谁”。快速提示-只有在JRuby上运行时,Neo4j.rb才会很酷。如果不是-使用Neograph
这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:Pythonconditionalassignmentoperator对于这样一个简单的问题表示歉意,但是谷歌搜索||=并不是很有帮助;)Python中是否有与Ruby和Perl中的||=语句等效的语句?例如:foo="hey"foo||="what"#assignfooifit'sundefined#fooisstill"hey"bar||="yeah"#baris"yeah"另外,类似这样的东西的通用术语是什么?条件分配是我的第一个猜测,但Wikipediapage跟我想的不太一样。
什么是ruby的rack或python的Java的wsgi?还有一个路由库。 最佳答案 来自Python标准PEP333:Bycontrast,althoughJavahasjustasmanywebapplicationframeworksavailable,Java's"servlet"APImakesitpossibleforapplicationswrittenwithanyJavawebapplicationframeworktoruninanywebserverthatsupportstheservletAPI.ht
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
导读:随着叮咚买菜业务的发展,不同的业务场景对数据分析提出了不同的需求,他们希望引入一款实时OLAP数据库,构建一个灵活的多维实时查询和分析的平台,统一数据的接入和查询方案,解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型,最终引入ApacheDoris作为最终的OLAP分析引擎,Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图,在叮咚买菜数十个业务场景中广泛应用。作者|叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月,是一家专注美好食物的创业公司。叮咚买菜专注吃的事业,为满足更多人“想吃什么”而努力,通过美好食材的供应、美好滋味的开发以及美食品牌的孵