草庐IT

SparkCore对学生成绩的统计案例

-berry 2023-12-10 原文

SparkCore对学生成绩的统计案例

1需求分析:

根据数据文件对数据进行分析,完成如下功能:

(1)查询学生成绩表中的前5名;

(2)输出单科成绩为100分的学生ID;

(3)输出每位学生所有科目的总成绩。

2数据源(bigdata.txt,math.txt,student.txt)

#bigdata.txt
1001	大数据基础	90
1002	大数据基础	94
1003	大数据基础	100
1004	大数据基础	99
1005	大数据基础	90
1006	大数据基础	94
1007	大数据基础	100
1008	大数据基础	93
1009	大数据基础	89
1010	大数据基础	78
1011	大数据基础	91
1012	大数据基础	84
#math.txt
1001	应用数学	96
1002	应用数学	94
1003	应用数学	100
1004	应用数学	100
1005	应用数学	94
1006	应用数学	80
1007	应用数学	90
1008	应用数学	94
1009	应用数学	84
1010	应用数学	86
1011	应用数学	79
1012	应用数学	91

#student.txt
1001	李正明
1002	王一磊
1003	陈志华
1004	张永丽
1005	赵信
1006	古明远
1007	刘浩明
1008	沈彬
1009	李子琪
1010	王嘉栋
1011	柳梦文
1012	钱多多

3代码实现

(1)查询学生成绩表中的前5名;这里指的是单科成绩哈,所以就没有合并math和data,分开求的各自排名

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

//我们的目的是取出学生成绩表中的前五名
object Top5_student_grade {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("grade")
    val sc = new SparkContext(sparkConf)
    //textFile中传入数据源,可以是相对路径或者绝对路径
    val bigdata: RDD[String] = sc.textFile("spark_core\\src\\main\\java\\data\\result_bigdata.txt")
    //获取每个数据值
    val bigdataMap: RDD[(String, String, String)] = bigdata.map(
      x => {
        var line = x.split("\t")
        (line(0), line(1), line(2))
      }
    )
    bigdataMap.sortBy(x=>x._3).take(5).foreach(println)

    sc.stop()
  }

}

结果为:



(2)输出单科成绩为100分的学生ID;

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
//输出单科成绩为100分的学生ID;目的是输出学生ID,分数100
object grade_100_studentId {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("grade_100")
    val sc = new SparkContext(sparkConf)
    //读取大数据成绩表
    val bigdata: RDD[String] = sc.textFile("spark_core\\src\\main\\java\\data\\result_bigdata.txt")
    //获取每个数据值
    val bigdataMap: RDD[(String, String, Int)] = bigdata.map(
      x => {
        var line = x.split("\t")
        (line(0), line(1), line(2).toInt)
      }
    )
    //读取数学成绩表
    val math: RDD[String] = sc.textFile("spark_core\\src\\main\\java\\data\\result_math.txt")
    //获取每个数据值
    val mathMap: RDD[(String, String, Int)] = math.map(
      x => {
        var line = x.split("\t")
        (line(0), line(1), line(2).toInt)
      }
    )
    //分别过滤出成绩为100分的学生
    val bigdataFilter = bigdataMap.filter(x => x._3 == 100).map(_._1)
    //打印一下大数据成绩为100的学生ID
    bigdataFilter.collect().foreach(println)
    //打印一下数学成绩为100的学生ID
    val mathFilter = mathMap.filter(x => x._3 == 100).map(_._1)
    mathFilter.collect().foreach(println)
    //取出单科成绩为100的学生ID,只需要成绩100的都拿出来,取出重复的(因为有人太厉害了,数学和大数据都是100分)
    val res: RDD[String] = bigdataFilter.union(mathFilter).distinct()
    res.collect().foreach(println)
  }
}

结果为:



(3)输出每位学生所有科目的总成绩。输出学生ID和总成绩

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

object student_totalGrade {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setMaster("local").setAppName("grade_100")
    val sc = new SparkContext(sparkConf)
    //读取大数据成绩表
    val bigdata: RDD[String] = sc.textFile("spark_core\\src\\main\\java\\data\\result_bigdata.txt")
    //获取每个数据值
    val bigdataMap: RDD[(String, Int)] = bigdata.map(
      x => {
        var line = x.split("\t")
        (line(0), line(2).toInt)
      }
    )
    //读取数学成绩表
    val math: RDD[String] = sc.textFile("spark_core\\src\\main\\java\\data\\result_math.txt")
    //获取每个数据值
    val mathMap: RDD[(String, Int)] = math.map(
      x => {
        var line = x.split("\t")
        (line(0), line(2).toInt)
      }
    )
    //reduceByKey相同key,即找到相同“student_ID”,去把他们对应的成绩相加,reduce你就把它当成sum求多个数值的和即可
    val res: RDD[(String, Int)] = bigdataMap.union(mathMap).reduceByKey(_ + _)
    res.collect().foreach(println)
  }

}


结果为:


解题方法很多种,✌可参考此博主的分析:https://blog.csdn.net/xiexianyou666/article/details/105766726

👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍❤❤❤👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍👍❤❤❤👍👍👍👍👍👍👍👍👍👍👍👍👍👍

有关SparkCore对学生成绩的统计案例的更多相关文章

  1. 「Python|Selenium|场景案例」如何定位iframe中的元素? - 2

    本文主要介绍在使用Selenium进行自动化测试或者任务时,对于使用了iframe的页面,如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候,可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签,如果直接查找是无法找到的,会抛出没有找到元素的异常。比如近在咫尺的例子就是,CSDN的登录窗体就是使用的iframe,大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素,会抛出NoSuchElementException异常。解决

  2. 计算机毕业设计ssm+vue基本微信小程序的小学生兴趣延时班预约小程序 - 2

    项目介绍随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱小学生兴趣延时班预约小程序的设计与开发被用户普遍使用,为方便用户能够可以随时进行小学生兴趣延时班预约小程序的设计与开发的数据信息管理,特开发了小程序的设计与开发的管理系统。小学生兴趣延时班预约小程序的设计与开发的开发利用现有的成熟技术参考,以源代码为模板,分析功能调整与小学生兴趣延时班预约小程序的设计与开发的实际需求相结合,讨论了小学生兴趣延时班预约小程序的设计与开发的使用。开发环境开发说明:前端使用微信微信小程序开发工具:后端使用ssm:VU

  3. ruby - 如何获取我的 Sinatra 应用程序的代码覆盖率统计信息? - 2

    我编写了一个Sinatra应用程序(网站),我想收集网站代码的代码覆盖率信息。我是Ruby的新手,但Google告诉我rcov是一个很好的代码覆盖工具。不幸的是,我在网上可以找到的所有信息只显示了如何获取有关测试用例的代码覆盖率信息-我想要有关我的站点本身的代码覆盖率信息。我想要分析的特定站点文件位于“sdk”和“sdk/vendor”目录中,因此我通常使用“rubysite.rb”运行我的站点的地方我改为尝试以下操作:rcov-Isdk-Isdk/vendorsite.rb它显示了Sinatra启动文本,但随后立即退出,而不是像我的Sinatra应用程序通常那样等待网络请求。有人能告

  4. ruby-on-rails - 收集 Rails 应用程序使用统计信息的最佳方式 - 2

    我有一个Rails应用程序,用户可以在其中设置他们的域并在其中发布内容。我需要收集公共(public)流量统计信息,例如网页浏览量等。此功能的一个很好的例子是我作为客户可以看到的flickr使用统计信息。问题是收集使用信息的最佳方式是什么。应该通过解析日志文件来完成还是应该在运行时收集并存储在数据库中?是否有任何工具或Rails插件已经提供了此功能?此解决方案应该可以很好地扩展,即使每月有数千个域和数百万次网页浏览。 最佳答案 GoogleAnalytics可能是您最好的选择... 关于

  5. ruby &&= 边缘案例 - 2

    有点边缘情况,但知道为什么&&=会这样吗?我正在使用1.9.2。obj=Object.newobj.instance_eval{@bar&&=@bar}#=>nil,expectedobj.instance_variables#=>[],soobjhasno@barinstancevariableobj.instance_eval{@bar=@bar&&@bar}#ostensiblythesameas@bar&&=@barobj.instance_variables#=>[:@bar]#whywouldthisversioninitialize@bar?为了比较,||=将实例变量初始

  6. ruby - 使用散列或案例陈述 [Ruby] - 2

    一般来说哪个更好用?:casenwhen'foo'result='bar'when'peanutbutter'result='jelly'when'stack'result='overflow'returnresult或map={'foo'=>'bar','peanutbutter'=>'jelly','stack'=>'overflow'}returnmap[n]更具体地说,什么时候应该使用案例陈述,什么时候应该只使用散列? 最佳答案 散列是一种数据结构,而case语句是一种控制结构。当你只是检索一些数据时,你应该使用散列(就像你

  7. Ruby:案例使用对象 - 2

    有没有办法在case语句的对象上隐式调用方法?即:classFoodefbar1enddefbaz...endend我希望能够做的是这样的事情......foo=Foo.newcasefoowhen.bar==1then"something"when.bar==2then"somethingelse"when.baz==3then"anotherthing"end...其中“when”语句正在评估case对象上方法的返回。这样的结构可能吗?如果是的话,我还没有弄清楚语法...... 最佳答案 FWIW,您根本不需要将对象传递给1.8

  8. BigData/Cloud Computing:基于阿里云技术产品的人工智能与大数据/云计算/分布式引擎的综合应用案例目录来理解技术交互流程 - 2

    BigData/CloudComputing:基于阿里云技术产品的人工智能与大数据/云计算/分布式引擎的综合应用案例目录来理解技术交互流程目录一、云计算网站建设:部署与发布网站建设:简单动态网站搭建云服务器管理维护云数据库管理与数据迁移云存储:对象存储管理与安全超大流量网站的负载均衡二、大数据MOOC网站日志分析搭建企业级数据分析平台基于LBS的热点店铺搜索基于机器学习PAI实现精细化营销基于机器学习的客户流失预警分析使用DataV制作实时销售数据可视化大屏使用MaxCompute进行数据质量核查使用Quick BI制作图形化报表使用时间序列分解模型预测商品销量三、云安全云平台使用安全云上服务

  9. ruby - 计算数组的统计信息 - 2

    我正在构建一个需要计算数据集统计信息的网络应用程序。我需要计算数组的百分位数、平均值、众数和其他统计函数。通常在Python中,我只会使用scipy、numpy或nltk,它们有一个巨大的stat数组函数库。我可以利用任何ruby​​gem或库来执行此操作吗?在没有任何现有库的情况下,是否有一种简单的方法可以在Python中进行数据处理,同时将我的应用程序保留在Ruby/Rails中? 最佳答案 如果你真的需要一个完整的统计库,看看statsample.否则你可能会发现descriptive_statistics成为一个不错的、轻量

  10. ruby - 从我的胰岛素泵 Controller 逆向工程统计数据文件 - 2

    这可能是也可能不是灰色地带主题,尽管我的意图肯定不是,所以我的意图不是激起关于逆向工程主题的道德辩论。我是1型糖尿病患者,目前正在接受泵治疗。我是OmniPod用户,这是一个一次性胶囊,可以粘在我的身上并分配胰岛素3天。它由个人糖尿病管理器[PDM](见下文)控制,该管理器控制进餐期间分配的胰岛素量、血糖读数,并且包含一个用于计算碳水化合物的食物指数。(来源:myomnipod.com)新的PDM有一个用于下载数据的USB端口。该软件对Windows用户免费(名为CoPilot的软件包),但不支持Mac。将PDM插入我的Mac后,它像任何其他USB设备一样安装,并为我提供了一个可读卷,

随机推荐