草庐IT

sparkSpark

全部标签

Note_Spark_Day02:Spark 基础环境

SparkDay02:Spark基础环境(二)Hadoop3.0-HDFS https://www.bilibili.com/video/BV1yX4y1K7LqHadoop3.0-MapReduce https://www.bilibili.com/video/BV1Tf4y167U8Hadoop3.0-yarn https://www.bilibili.com/video/BV1wh411S76Z01-[了解]-上次课程内容回顾主要讲解2个方面的内容:Spark框架概述和Spark快速入门。1、Spark框架概述 -Spark框架诞生背景 加州大学、伯克利分校、APMLab实验室、200

Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)

 教程目录0x00教程内容0x01进阶算子操作1.创建RDD2.转换算子【1】reduceByKey(func)【2】groupByKey()【3】mapValues(func)【4】flatMapValues(func)【5】keys()【6】values()【7】sortByKey()【8】combineByKey(createCombiner,mergeValue,mergeCombiners)【9】subtractByKey()【10】cogroup()3.行动算子【1】countByKey()【2】lookup()【3】collectAsMap()0x02RDD的缓存与持久化1.缓存

大数据面试杀招——Spark高频考点,必知必会!

        前面两篇文章分别为大家介绍了大数据面试杀招关于Hive与Hadoop的内容,收到读者朋友们一致的好评和赞赏。嘿嘿,本篇文章我们就继续来研究,关于Spark的面试热点,又有哪些~一、你是怎么理解Spark,它的特点是什么?        Spark是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。        它内部的组成模块,包含SparkCore,SparkSQL,SparkStreaming,SparkMLlib,SparkGraghx等…        它的特点:快        Spark计算速度是MapReduce计算

Spark性能调优-Shuffle调优及故障排除篇

Spark调优之Shuffle调优本节开始先讲解Shuffle核心概念;然后针对HashShuffle、SortShuffle进行调优;接下来对map端、reduce端调优;再针对Spark中的数据倾斜问题进行剖析及调优;最后是Spark运行过程中的故障排除。本文首发于公众号【五分钟学大数据】,本公号专注于大数据技术,分享高质量大数据原创技术文章。一、Shuffle的核心概念1.ShuffleMapStage与ResultStageShuffleMapStage与ResultStage在划分stage时,最后一个stage称为FinalStage,它本质上是一个ResultStage对象,前面

Spark底层原理详细解析(深度好文,建议收藏)

Spark简介ApacheSpark是用于大规模数据处理的统一分析引擎,基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。Spark源码从1.x的40w行发展到现在的超过100w行,有1400多位大牛贡献了代码。整个Spark框架源码是一个巨大的工程。下面我们一起来看下spark的底层执行原理。Spark运行流程具体运行流程如下:SparkContext向资源管理器注册并向资源管理器申请运行Executor资源管理器分配Executor,然后资源管理器启动ExecutorExecutor发送心跳至资源管理器Sp

记录一则Spark读写和Lost Excutor错误的分析和解决过程

一、概述 上篇blog记录了些在用spark-sql时遇到的一些问题,今天继续记录用Spark提供的RDD转化方法开发公司第一期标签分析系统(一部分scala作业逻辑代码后面blog再给大家分享)遇到的一些SPARK作业错误信息。其中有些问题可能一些数据量或者shuffle量比较小的作业时不会遇到的,我们整套标签系统的初级输入数据大概是8T左右,这里也是个参考。(下面的Spark部署模式为sparkonyarn)二、问题1、大规模数据往HDFS中写时候,报了HDFS读写超时,具体日志看下面。(1)具体到某个Excutor的错误日志:(2)具体到各个数据节点DataNode的日志:分析:从这两个

Spark的两种核心Shuffle详解

在MapReduce框架中,Shuffle阶段是连接Map与Reduce之间的桥梁,Map阶段通过Shuffle过程将数据输出到Reduce阶段中。由于Shuffle涉及磁盘的读写和网络I/O,因此Shuffle性能的高低直接影响整个程序的性能。Spark也有Map阶段和Reduce阶段,因此也会出现Shuffle。文章都会首发在公众号【五分钟学大数据】SparkShuffleSparkShuffle分为两种:一种是基于Hash的Shuffle;另一种是基于Sort的Shuffle。先介绍下它们的发展历程,有助于我们更好的理解Shuffle:在Spark1.1之前,Spark中只实现了一种Sh

面试系列五 之 项目涉及技术Spark

一、Spark1.1Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。3)Yarn:Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。4)Mesos:国内大环境比较少用。1.2Spark任务使用什么进行提交,javaEE界面还是脚本Shell脚本。1.3Spark提交作业参数(重点)1)

Note_Spark_Day02:Spark 基础环境

SparkDay02:Spark基础环境(二)Hadoop3.0-HDFS https://www.bilibili.com/video/BV1yX4y1K7LqHadoop3.0-MapReduce https://www.bilibili.com/video/BV1Tf4y167U8Hadoop3.0-yarn https://www.bilibili.com/video/BV1wh411S76Z01-[了解]-上次课程内容回顾主要讲解2个方面的内容:Spark框架概述和Spark快速入门。1、Spark框架概述 -Spark框架诞生背景 加州大学、伯克利分校、APMLab实验室、200

Spark RDD算子进阶(转换算子、行动算子、缓存、持久化)

 教程目录0x00教程内容0x01进阶算子操作1.创建RDD2.转换算子【1】reduceByKey(func)【2】groupByKey()【3】mapValues(func)【4】flatMapValues(func)【5】keys()【6】values()【7】sortByKey()【8】combineByKey(createCombiner,mergeValue,mergeCombiners)【9】subtractByKey()【10】cogroup()3.行动算子【1】countByKey()【2】lookup()【3】collectAsMap()0x02RDD的缓存与持久化1.缓存