草庐IT

猿创征文|Hadoop大数据技术

Hadoop大数据技术Hadoop背景Hadoop生态圈Hadoop模式HDFS概述优点缺点基本组成NameNodeSecondaryNameNodeDataNodeYARNYARN调度器(Scheduler)FIFOSchedulerCapacityScheduleFairSchedulerMapReduce设计思想编程模型初识MapReduce模型MapReduce模型简单示例MapReduce编程模型编程模型实例-分析好友关注Hive体系结构工作原理HiveQL基础语法内部表外部表分区表桶表视图Hive调优Pig简介昨夜西风凋碧树。独上高楼,望尽天涯路。Hadoop背景数据,已经渗透到当

【深入浅出 Yarn 架构与实现】2-2 Yarn 基础库 - 底层通信库 RPC

RPC(RemoteProcedureCall)是Hadoop服务通信的关键库,支撑上层分布式环境下复杂的进程间(Inter-ProcessCommunication,IPC)通信逻辑,是分布式系统的基础。允许运行于一台计算机上的程序像调用本地方法一样,调用另一台计算机的子程序。由于RPC服务整体知识较多,本节仅针对对YarnRPC进行简略介绍,详细内容会后续开专栏介绍。一、RPC通信模型介绍为什么会有RPC框架?在分布式或微服务情境下,会有大量的服务间交互,如果用传统的HTTP协议端口来通信,需要耗费大量时间处理网络数据交换上,还要考虑编解码等问题。如下图所示。客户端通过RPC框架的动态代理

【深入浅出 Yarn 架构与实现】2-2 Yarn 基础库 - 底层通信库 RPC

RPC(RemoteProcedureCall)是Hadoop服务通信的关键库,支撑上层分布式环境下复杂的进程间(Inter-ProcessCommunication,IPC)通信逻辑,是分布式系统的基础。允许运行于一台计算机上的程序像调用本地方法一样,调用另一台计算机的子程序。由于RPC服务整体知识较多,本节仅针对对YarnRPC进行简略介绍,详细内容会后续开专栏介绍。一、RPC通信模型介绍为什么会有RPC框架?在分布式或微服务情境下,会有大量的服务间交互,如果用传统的HTTP协议端口来通信,需要耗费大量时间处理网络数据交换上,还要考虑编解码等问题。如下图所示。客户端通过RPC框架的动态代理

【深入浅出 Yarn 架构与实现】2-3 Yarn 基础库 - 服务库与事件库

一个庞大的分布式系统,各个组件间是如何协调工作的?组件是如何解耦的?线程运行如何更高效,减少阻塞带来的低效问题?本节将对Yarn的服务库和事件库进行介绍,看看Yarn是如何解决这些问题的。一、服务库一)简介对于生命周期较长的对象,Yarn采用基于服务的模型对其进行管理,有以下几个特点:基于状态管理:分为4个状态:NOTINITED(被创建)、INITED(已初始化)、STARTED(已启动)、STOPPED(已停止)。服务状态的变化会触发其他的操作。可通过组合的方式对服务进行组合。二)源码简析源代码地址在hadoop-common-project/hadoop-common/src/main/

【深入浅出 Yarn 架构与实现】2-3 Yarn 基础库 - 服务库与事件库

一个庞大的分布式系统,各个组件间是如何协调工作的?组件是如何解耦的?线程运行如何更高效,减少阻塞带来的低效问题?本节将对Yarn的服务库和事件库进行介绍,看看Yarn是如何解决这些问题的。一、服务库一)简介对于生命周期较长的对象,Yarn采用基于服务的模型对其进行管理,有以下几个特点:基于状态管理:分为4个状态:NOTINITED(被创建)、INITED(已初始化)、STARTED(已启动)、STOPPED(已停止)。服务状态的变化会触发其他的操作。可通过组合的方式对服务进行组合。二)源码简析源代码地址在hadoop-common-project/hadoop-common/src/main/

【深入浅出 Yarn 架构与实现】2-4 Yarn 基础库 - 状态机库

当一个服务拥有太多处理逻辑时,会导致代码结构异常的混乱,很难分辨一段逻辑是在哪个阶段发挥作用的。这时就可以引入状态机模型,帮助代码结构变得清晰。一、状态机库概述一)简介状态机由一组状态组成:【初始状态->中间状态->最终状态】。在一个状态机中,每个状态会接收一组特定的事件,根据事件类型进行处理,并转换到下一个状态。当转换到最终状态时则退出。二)状态转换方式状态间转换会有下面这三种类型:三)Yarn状态机类在Yarn中提供了一个工厂类StateMachineFactory来帮助定义状态机。如何使用,我们直接写个demo。二、案例demo在上一篇文章《Yarn服务库和事件库》案例基础上进行扩展,增

【深入浅出 Yarn 架构与实现】2-4 Yarn 基础库 - 状态机库

当一个服务拥有太多处理逻辑时,会导致代码结构异常的混乱,很难分辨一段逻辑是在哪个阶段发挥作用的。这时就可以引入状态机模型,帮助代码结构变得清晰。一、状态机库概述一)简介状态机由一组状态组成:【初始状态->中间状态->最终状态】。在一个状态机中,每个状态会接收一组特定的事件,根据事件类型进行处理,并转换到下一个状态。当转换到最终状态时则退出。二)状态转换方式状态间转换会有下面这三种类型:三)Yarn状态机类在Yarn中提供了一个工厂类StateMachineFactory来帮助定义状态机。如何使用,我们直接写个demo。二、案例demo在上一篇文章《Yarn服务库和事件库》案例基础上进行扩展,增

【深入浅出 Yarn 架构与实现】3-1 Yarn Application 流程与编写方法

本篇学习YarnApplication编写方法,将带你更清楚的了解一个任务是如何提交到Yarn,在运行中的交互和任务停止的过程。通过了解整个任务的运行流程,帮你更好的理解Yarn运作方式,出现问题时能更好的定位。一、简介本篇将对YarnApplication编写流程进行介绍。将一个新的应用程序运行到Yarn上,主要编写两个组件Client和ApplicationMaster,组件的具体实现案例将在后两篇文章中介绍。(实际使用中,我们并不需要实现一个YarnApplication,直接将任务提交到MapReduce、Spark、Hive、Flink等框架上,再由这些框架提交任务即可,这些框架也可

【深入浅出 Yarn 架构与实现】3-1 Yarn Application 流程与编写方法

本篇学习YarnApplication编写方法,将带你更清楚的了解一个任务是如何提交到Yarn,在运行中的交互和任务停止的过程。通过了解整个任务的运行流程,帮你更好的理解Yarn运作方式,出现问题时能更好的定位。一、简介本篇将对YarnApplication编写流程进行介绍。将一个新的应用程序运行到Yarn上,主要编写两个组件Client和ApplicationMaster,组件的具体实现案例将在后两篇文章中介绍。(实际使用中,我们并不需要实现一个YarnApplication,直接将任务提交到MapReduce、Spark、Hive、Flink等框架上,再由这些框架提交任务即可,这些框架也可

(超详细) Spark环境搭建(Local模式、 StandAlone模式、Spark On Yarn模式)

Spark环境搭建JunLeon——gobigorgohome目录Spark环境搭建目录Spark环境搭建一、环境准备1、软件准备2、Hadoop集群搭建3、Anaconda环境搭建二、SparkLocal模式搭建1、Spark下载、上传和解压2、配置环境变量3、配置Spark配置文件4、测试5、补充:spark-shell、spark-submit三、SparkStandone模式搭建1、Hadoop集群与Spark集群节点规划2、三台虚拟机分别安装Anaconda3环境3、配置Spark配置文件(1)配置spark-env.sh文件(2)配置spark-defaults.conf文件(3)