草庐IT

Spark Executor端日志打印的方法

一、问题背景大数据平台采用yarnclient模式提交spark任务,并且多个离线Spark作业共用一个Driver,好处便在于——节省提交任务的时间。但同时也加大了运维工作的难度,因为任务日志打印到同一个文件中。为了区分开各个业务流程的日志,平台引入了log4j2RoutingAppender,配置如下所示:最近数据开发部门在使用大数据平台的二次开发算子时,反馈说平台提供的Logger对象打印不出日志,抱着好奇的心态,研究了一下平台使用的日志框架。其实平台提供的Logger对象打印在executor端打印不出日志很正常,因为上述的log4j2.xml文件并没有分发到executor端,更没有

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

🚀作者:“大数据小禅”🚀文章简介:本篇文章属于Spark系列文章,专栏将会记录从spark基础到进阶的内容🚀内容涉及到Spark的入门集群搭建,核心组件,RDD,算子的使用,底层原理,SparkCore,SparkSQL,SparkStreaming等,Spark专栏地址.欢迎小伙伴们订阅💪手机流量日志处理SparkSQL简介依赖引入SparkSQL快速入门案例手机流量日志数据格式与处理要求处理程序SparkSQL简介SparkSQL是ApacheSpark的一个模块,提供了一种基于结构化数据的编程接口。它允许用户使用SQL语句或DataFrameAPI来查询和操作数据,同时还支持使用Spar

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

🚀作者:“大数据小禅”🚀文章简介:本篇文章属于Spark系列文章,专栏将会记录从spark基础到进阶的内容🚀内容涉及到Spark的入门集群搭建,核心组件,RDD,算子的使用,底层原理,SparkCore,SparkSQL,SparkStreaming等,Spark专栏地址.欢迎小伙伴们订阅💪手机流量日志处理SparkSQL简介依赖引入SparkSQL快速入门案例手机流量日志数据格式与处理要求处理程序SparkSQL简介SparkSQL是ApacheSpark的一个模块,提供了一种基于结构化数据的编程接口。它允许用户使用SQL语句或DataFrameAPI来查询和操作数据,同时还支持使用Spar

Presto、Spark 和 Hive 即席查询性能对比

Presto、Spark和Hive是三个非常流行的大数据处理框架,它们都有着各自的优缺点。在本篇博客文章中,我们将对这三个框架进行详细的对比,以便读者更好地了解它们的异同点。Presto是一个开源的分布式SQL查询引擎,它可以在多个数据源之间进行查询,并且可以快速地处理海量数据。Presto的主要优点在于其高性能和灵活性。它可以很容易地集成到现有的数据架构中,并且可以在不同的数据源之间进行无缝的查询。此外,Presto还支持多种数据格式,包括JSON、CSV、Avro等等。Spark是一个基于内存的分布式计算框架,它可以处理大规模的数据,并且具有很高的性能和可扩展性。Spark的主要优点在于其

Hive on Spark环境搭建

文章目录Hive引擎简介环境配置(ssh已经搭好)JDK准备Hadoop准备配置集群启动集群LZO压缩配置Hive准备Hive元数据配置到MySQLSpark准备HiveonSpark配置HiveonSpark测试Sparkonyarn&sparkonhive配置Hive引擎简介Hive引擎包括:默认MR、tez、spark最底层的引擎就是MR(Mapreduce)无需配置,Hive运行自带HiveonSpark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。SparkonHive:Hive只作为存储元数据,Spark

基于Linux的Spark安装与环境配置

文章目录基于Linux的Spark安装与环境配置1、Hadoop测试1.1启动hadoop1.2再次启动hadoop1.3查看是否成功2、Scala安装与配置2.1下载scala2.2解压并重命名2.3配置环境2.4测试3、Spark安装与配置3.1下载Spark3.2解压并重命名3.3配置环境3.4配置spark-env.sh3.5配置slaves(好像不需要)3.6启动(报错)3.7测试3.8查看Spark版本基于Linux的Spark安装与环境配置1、Hadoop测试因为Spark是基于Hadoop上工作的,所以当我们使用Spark框架时,必须要确保Hadoop能够正常运行:1.1启动h

基于Linux的Spark安装与环境配置

文章目录基于Linux的Spark安装与环境配置1、Hadoop测试1.1启动hadoop1.2再次启动hadoop1.3查看是否成功2、Scala安装与配置2.1下载scala2.2解压并重命名2.3配置环境2.4测试3、Spark安装与配置3.1下载Spark3.2解压并重命名3.3配置环境3.4配置spark-env.sh3.5配置slaves(好像不需要)3.6启动(报错)3.7测试3.8查看Spark版本基于Linux的Spark安装与环境配置1、Hadoop测试因为Spark是基于Hadoop上工作的,所以当我们使用Spark框架时,必须要确保Hadoop能够正常运行:1.1启动h

Apache Doris (三十一):Doris 数据导入(九)Spark Load 4- 导入Hive数据及注意事项

目录1. SparkLoad导入Hive非分区表数据2. SparkLoad导入Hive分区表数据3.注意事项进入正文之前,欢迎订阅专题、对博文点赞、评论、收藏,关注IT贫道,获取高质量博客内容!宝子们订阅、点赞、收藏不迷路!抓紧订阅专题!1. SparkLoad导入Hive非分区表数据1)在node3hive客户端,准备向Hive表加载的数据hive_data1.txt:1,zs,18,1002,ls,19,1013,ww,20,1024,ml,21,1035,tq,22,1042)启动Hive,在Hive客户端创建Hive表并加载数据#配置Hive服务端$HIVE_HOME/conf/hi

Spark任务中Task数量确定和一些总结

本文示例使用的组件:Spark3.x,Hadoop3.x,SparkonYarn一些基本的概念Application:一个sparkcontext就代表了一个ApplicationJob:一个Application里可以有多个Job,在代码中的体现就是一次Spark的action算子执行就代表了一个JobStage:(1)一个Job可划分为多个Stage,Stage代表Job执行的阶段(2)有关联的Stage之间是串行执行的,也就是上一个阶段执行完毕才能执行下一个Stage(3)Stage的划分根据是否有Shuffle(RDD宽依赖,也叫Shuffle依赖)划分的,一个Job的Stage数等于

spark sql 执行流程

最近学习了sparksql执行流程,从网上搜到了大都是sql解析、analyzer、optimizer阶段、sparkplan阶段,但是我比较好奇的是,这几个阶段是怎么串起来的,于是花了好几天着重从源码层面看看了看具体实现,写了几点自己认为应该注意的地方。1、command命令的执行过程sparksql的命令主要分为两种形式:command和普通DML操作。command从源码测可以看到它属于logicalPlan阶段从官方文档的解释可以看出,它处理主要是showdatabases;use;createtable;altertable等DDL的操作。它的主要继承子类为RunnableComma