一、Yarn产生的背景Hadoop2之前是由HDFS和MR组成的,HDFS负责存储,MR负责计算。一)MRv1的问题耦合度高:MR中的jobTracker同时负责资源管理和作业控制两个功能,互相制约。可靠性差:管理节点是单机的,有单点故障的问题。资源利用率低:基于slot的资源分配模型。机器会将资源划分成若干相同大小的slot,并划定哪些是mapslot、哪些是reduceslot。无法支持多种计算框架:限定了只能用于MapReduce程序。二)Yarn的诞生由于之前Hadoop资源调度的种种问题,新的资源调度框架产生了——YARN(YetAnotherResourceNegotiator)。
目录1.3ApacheHadoop的重要组成1.3ApacheHadoop的重要组成Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块HadoopHDFS:(HadoopDistributeFileSystem)一个高可靠、高吞吐量的分布式文件系统比如:100T数据存储,“分而治之”。分:拆分-->数据切割,100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。数据切割、制作副本、分散储存图中涉及到几个角色NameNode(nn):存储文件的元数据,比如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)
目录1.3ApacheHadoop的重要组成1.3ApacheHadoop的重要组成Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算框架)+Yarn(资源协调框架)+Common模块HadoopHDFS:(HadoopDistributeFileSystem)一个高可靠、高吞吐量的分布式文件系统比如:100T数据存储,“分而治之”。分:拆分-->数据切割,100T数据拆分为10G一个数据块由一个电脑节点存储这个数据块。数据切割、制作副本、分散储存图中涉及到几个角色NameNode(nn):存储文件的元数据,比如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)