草庐IT

Spark-DataFrame

全部标签

Spark SQL自定义collect_list分组排序

想要在sparksql中对groupby+concat_ws()的字段进行排序,可以参考如下方法。原始数据如下:+---+-----+----+|id|name|type|+---+-----+----+|1|name1|p||2|name2|p||3|name3|p||1|x1|q||2|x2|q||3|x3|q|+---+-----+----+目标数据如下:+----+---------------------+|type|value_list|+----+---------------------+|p|[name3,name2,name1]||q|[x3,x2,x1]|+----+--

大数据毕业设计选题推荐-超级英雄运营数据监控平台-Hadoop-Spark-Hive

✨作者主页:IT研究室✨个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目文章目录一、前言二、开发环境三、系统界面展示四、代码参考五、论文参考六、系统视频结语一、前言随着信息技术的快速发展,尤其是移动游戏的广泛普及,游戏运营数据监控平台在游戏产业中的角色变得越来越重要。本课题基于这一背景,旨在开发一个针对HyperHeroes游戏的运营数据监控平台,以提高游戏的运营效率,优化用户体验,并实

大数据学习之Spark性能优化

文章目录Spark三种任务提交模式宽依赖和窄依赖StageSparkJob的三种提交模式Shuffle机制分析未优化的HashBasedShuffle优化后的HashBasedShuffleSort-BasedShuffleSpark之checkpointcheckpoint概述checkpoint与持久化的区别checkPoint的使用checkpoint源码分析Spark程序性能优化性能优化分析内存都去哪了性能优化方案高性能序列化类库持久化或者checkpointJVM垃圾回收调优提高并行度数据本地化Spark性能优化之算子优化mapvsmapPartitionsforeachvsfore

Spark-Core

1、Spark简介2、Spark-Core核心算子3、Spark-Core4、SparkSQL文章目录一、RDD编程1、RDD序列化1.2Kryo序列化框架2、RDD依赖关系2.1查看血缘关系2.2查看依赖关系2.3窄依赖2.4宽依赖2.5Stage任务划分3、RDD持久化3.1Cache缓存3.2CheckPoint检查点3.3缓存和检查点区别3.4检查点存储到HDFS集群4、键值对RDD数据分区二、累加器三、广播变量一、RDD编程1、RDD序列化初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。classUserexte

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解

Pandas数据处理3、DataFrame去重函数drop_duplicates()详解目录Pandas数据处理3、DataFrame去重函数drop_duplicates()详解前言环境基础函数的使用drop_duplicates函数subset参数测试Keep参数测试全都删掉【keep=False】留第一次出现的【keep='first'】留最后一次出现的【keep='last'】ignore_index参数测试ignore_index=True重新排序ignore_index=False不重新排序总结前言        这个女娃娃是否有一种初恋的感觉呢,但是她很明显不是一个真正意义存在的

字节跳动 Spark Shuffle 大规模云原生化演进实践

在字节跳动内部,Spark计算引擎被广泛应用于大规模数据处理,机器学习等场景,天任务数超过150W。线上集群磁盘类型多样,包括SSD、HDD及混合等。每天会产生超过100PB以上的Shuffle数据,同时单个任务的Shuffle数据量可能达到数百TB。巨量的Shuffle数据和复杂的计算资源环境也给Spark运行过程中的Shuffle性能带来了很多挑战。本文将从背景介绍、稳定性资源场景和混部资源场景分享字节跳动在SparkShuffle云原生化方面的大规模演进实践。一、背景介绍Spark 是字节跳动内使用广泛的计算引擎,已广泛应用于各种大规模数据处理、机器学习和大数据场景。目前中国区域内每天的

大数据毕业设计选题推荐-智慧小区大数据平台-Hadoop-Spark-Hive

✨作者主页:IT研究室✨个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。☑文末获取源码☑精彩专栏推荐⬇⬇⬇Java项目Python项目安卓项目微信小程序项目文章目录一、前言二、开发环境三、系统界面展示四、代码参考五、论文参考六、系统视频结语一、前言随着信息技术的快速发展,智慧小区已成为城市管理的重要组成部分。智慧小区通过集成物联网、大数据、云计算等先进技术,为小区居民提供更便捷、更智能的服务,同时也为物业管理部门提供更便捷、更准确的管理手段。在这个背景下,研究智慧小区大

Spark分布式计算原理

一、SparkWordCount运行原理二、划分Stage数据本地化        移动计算,而不是移动数据        保证一个Stage内不会发生数据移动三、SparkShuffle过程在分区之间重新分配数据        父RDD中同一分区中的数据按照算子要求重新进入RDD的不同分区中        中间结果写入磁盘        有子RDD拉取数据,而不是由父RDD推送        默认情况下,shuffle不会改变分区数量四、RDD的依赖关系Lineage:血统、依赖        RDD最重要的特征之一,保存了RDD的依赖关系        RDD实现了基于Lineage的容错

python学习——pandas库的使用之series及DataFrame创建、查看、切片、运算

pandas学习目录pandas1Series(序列)1.1基本概念1.1.1索引ser['a']、ser.a、ser[0]、ser.get('a')1.1.2切片1.1.2.1基于标签切片的时候,切片区间全闭1.1.2.2基于位置的切片语法切片区间左闭右开1.1.3选择和过滤1.1.3.1直接通过Series进行比较1.1.3.2通过Series.index或者Series.values进行比较1.2序列创建1.2.1列表,元组(一维)1.2.2标量1.2.3数组1.2.4字典1.3序列、索引名字及属性1.3.1序列的名字和索引名字1.3.2序列的属性1.4序列的运算1.4.1序列运算保留索

【基本功】Spark常用参数详解

一、Hadoop&Hive&Spark官方文档官网文档永远是最好的指导手册hive1.2.1参数配置官方文档spark2.2参数配置官方文档/sparksql参数配置文档/spark最新版本官方文档hadoop2.7.1参数配置官方文档二、常用Spark参数具体含义 参数分类场景参数公司集群默认值参数含义executor申请&并行度一般需要大数量下,需要提升任务并行度时可以考虑修改这些参数spark.dynamicAllocation.enabledtrue是否开启动态资源分配,平台默认开启,同时强烈建议用户不要关闭。理由:开启动态资源分配后,Spark可以根据当前作业的负载动态申请和释放资源