草庐IT

【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例】

源码空间站11 2023-04-19 原文

【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例-哔哩哔哩】 https://b23.tv/zKOtd3L

目  录

一 引言​1

二 系统分析​2

2.1 必要性和可行性分析​2

2.2 技术分析​2

三 总体设计​4

3.1 可视化界面设计​4

3.2 数据库设计​4

3.3 网页设计​5

四 实验实现​6

4.1 大数据实验环境的搭建​6

4.1.1 Linux系统及相关软件的配置​6

4.1.2 JDK的安装​7

4.1.3 Scala的安装​8

4.1.4 Hadoop的安装​9

4.1.5 Spark的安装​11

4.1.6 MySQL数据库的安装​11

4.1.7 安装Tomcat​12

4.2 IDEA开发工具的安装​13

4.2.1 启动IDEA​13

4.2.2 为IDEA安装Scala插件​13

4.2.3 配置项目的JDK​14

4.2.4 使用IDEA开发WordCount程序​15

4.3 电信用户行为分析实现过程​20

4.3.1 本地数据集上传到HDFS​21

4.3.2 在MySQL中创建数据库​21

4.3.3 开发Spark程序分析用户行为​24

4.3.4 使用Spring MVC框架进行数据可视化分析​27

4.3.5把网页应用部署到Tomcat服务器中​35

五 结论​38

 

 

 

 

 

 

 

电信用户行为分析

(安阳师范学院 软件学院,河南 安阳 455002)

摘  要: 电信用户行为分析是对用户登录电信公司网站的数据集加载到分布式文件系统HDFS中,对数据集进行用户行为分析把分析结果写入到MySQL数据库中,最后通过Spring MVC框架进行可视化分析。网站公司可以根据用户渠道趋势的分析、用户请求方式对比情况以及显示用户的具体信息预测未来网民行为的变化方式,进一步扩展公司的业务。本文介绍了整个项目的系统分析,技术分析以及整个项目的总体设计。

关键词:电信用户行为分析;分布式文件系统;Spring MVC框架;MySQL数据库

 

一 引言

近些年来,随着移动通信网络和互联网技术的融合与发展,移动互联网己经渗入到人们日常工作和生活的各个领域,成为不可或缺的一部分,人们可以非常便捷地使用终端接入通信网络来访问互联网。网络技术的发展为用户提供了多样化、高速率的网络服务;同时,用户更加期待更加具有差异化与个性化的服务。挖掘发现用户上网的共性及个性特征,对用户的行为偏好进行深入洞察,实现精准用户定位和精细化运营,就成为了在移动互联网时代制胜的关键法宝。本次项目主要是针对一些省市的用户登录电信公司网站的数据进行分析和可视化,由此可以清晰地反映出用户登录渠道的变化趋势;用户通过PC机、平板电脑和手机这三种渠道登录网页的分布状况和所占比例;以及查看各用户的具体信息。

二 系统分析

2.1 必要性和可行性分析

电信用户行为分析中根据浙江省丽水市、福建省南平市和福建省福州市三个地方的用户登录电信网站的数据进行分析,主要对用户登录网站渠道趋势的分析、用户登录网站时的请求方式以及显示用户的具体信息。尽管是网络技术发展快速,但是很少有人去透彻的分析网民的具体行为信息,在一定程度上制约了其发展的速度;网站公司也可以通过对用户行为的分析得到未来用户行为的发展趋向,从而可以进一步的扩大网民的数量,进而提高网站公司的发展速度。除此之外电信用户行为分析过程中先通过安装系统,为后边的实验配置好环境,而且各软件的安装步骤和注意事项都是我们之前学过以及安装练习过的,有一定理论基础和经验,安装过程也不会因此而难住。系统安装成功后对电信行业用户行为的数据集进行可视化分析,我们之前也系统的学习过如何对数据进行可视化分析,除此之外我们也可以根据林子雨老师的步骤进行操作,整个实验过程中所用到技术大多都是我们之前系统的学习过的,因此具有相应技术的理论基础。

2.2 技术分析

(1)Linux系统:Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和UNIX的多用户、多任务、支持多线程和多CPU的操作系统。Linux继承了Unix以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。本次实验的所有步骤都是在Linux系统下进行的,他是整个实验的基础环境。

(2)MySQL:MySQL是一个真正的多用户、多线程SQL数据库服务器。SQL(结构化查询语言)是世界上最流行的和标准化的数据库语言,它使得存储、更新和存取信息更加容易。MySQL是一个客户机/服务器结构的实现,它由一个服务器守护程序mysqld和许多不同的客户程序以及数据库组成的。MySQL是最好的关系数据库管理系统应用软件之一。也是现阶段我们所学的用于存储数据的数据库,他所使用的语言我们相对比较熟悉;我们在实验中主要是用它存储用户行为分析的结果。

(3)Hadoop:Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引擎。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。本次实验主要是利用Hadoop中的组件HDFS对电信用户行为数据集进行存储和管理。

(4)Tomcat: Tomcat 服务器是一个免费的开放源代码的Web 应用服务器,属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP 程序的首选。本次实验主要利用它来响应HTML页面的访问请求,以此用来呈现数据挖掘和分析的结果,提供网页服务。

(5)Spring: Spring是一个开放源代码的设计层面框架,他解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用。Spring是一个轻量级的Java 开发框架。本次实验主要是利用Spring、Spring MVC框架和MyBatis框架三者组合开发网页应用,对数据分析结果进行可视化展现。

(6)IntelliJ IDEA:是Java语言开发的集成开发环境,在业界被公认为最好的java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代码审查、 创新的GUI设计等方面的功能可以说是超常的,具有非常好的特性。本实验主要是采用IDEA进行程序开发,对程序进行打包,生成应用程序JAR包。

(7)Spark:Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集,它具有运行速度快、易用性好、通用性强和随处运行等特点,本次实验主要是对数据进行计算处理。

三 总体设计

电信用户行为分析主要是以linux操作系统为环境基础,在其基础上配置以Hadoop为主的大数据技术体系。配置MySQL关系型数据库,在MySQL中创建相应的数据库、表和视图,用户分析的结果都会被写入到数据库中。在linux环境中配置网页服务器Tomcat,通过IDEA工具把程序生成应用程序JAR包,把Spring MVC框架中生成的文件复制到Tomcat中,把网页应用部署到Tomcat中,为两者建立相应的连接,然后再打开浏览器,输入相应的地址,就可以看到相应的数据图表。

3.1 可视化界面设计

本文所得到的可视化实现的页面主要包括:用户渠道分析的折线图、用户请求方式对比情况柱状图、用户渠道的饼图和现实用户的具体信息这几个可视化页面。

3.2 数据库设计

数据库主要是在MySQL中建立,本次实验需要在MySQL中创建相应的数据库、表和视图。创建一个新的数据库spark_web用于存储后面创建的表和视图,在数据库spark_web创建一个数据汇总表sum记录关于用户登录电信公司网站的汇总数据(包含:用户编号、登陆次数和在线时长等等);创建数据明细表detail记录关于用户登录电信公司网站的时间信息(包含:用户编号、首次登陆时间和在线时长等等);创建数据原始明细表cleanMap记录用户登录电信公司网站的细节信息(包含: 用户编号、登陆时间、登陆IP地址、登陆区域、请求类型和渠道等);创建区域维表t_dim_area记录区域编码所对应的城市名称;创建渠道维表t_dim_channel记录渠道编码所对应的渠道名称;创建请求类型表t_dim_requesttype记录请求类型编码所对应的请求类型名称。在数据库中也要建立五个相应的视图来作为网页可视化分析的数据源。用户行为分析的结果会被写入到数据库创建的相应的表中,数据库中的视图作为网页可视化分析的数据源;以上便是对数据库的设计。

3.3 网页设计

由于实验的前期以及把数据集分析的结果存入到了MySQL数据库中,通过使用Spring、SpringMVC、MyBatis框架和可视化图表ECharts编写

有关【计算机大数据毕设之基于spark+hadoop的大数据分析论文写作参考案例】的更多相关文章

  1. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  2. ruby-on-rails - 使用一系列等级计算字母等级 - 2

    这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间,其中100是最大分数。计算平均分并将字母等级作为字符串返回,即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join,

  3. ruby - Ruby 有 `Pair` 数据类型吗? - 2

    有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳

  4. ruby - 我如何添加二进制数据来遏制 POST - 2

    我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_

  5. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  6. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D) - 2

    本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01  客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02  数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit

  7. 使用canal同步MySQL数据到ES - 2

    文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co

  8. ruby-on-rails - 创建 ruby​​ 数据库时惰性符号绑定(bind)失败 - 2

    我正在尝试在Rails上安装ruby​​,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf

  9. STM32读取串口传感器数据(颗粒物传感器,主动上传) - 2

    文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,

  10. SPI接收数据异常问题总结 - 2

    SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手

随机推荐