学完了Hadoop，我总结了这些重点

苍夜月明 2023-07-04 原文

文章目录

一、Hadoop 组成

Hadoop解决两件事：

海量数据的存储
海量数据的计算

Hadoop1.x 、2.x 、3.x 的区别

在Hadoop1.x时期，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大（低耦合才好，高内聚低耦合嘛）。

在Hadoop2.x时期，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算。

Hadoop3.x在组成上没有变化

HDFS架构概述

Hadoop Distributed File System，简称 HDFS，是一个分布式文件系统。主要解决海量数据的存储问题。

（1）NameNode（NN）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），和每个文件的块列表和块所在的DataNode等。

（2）DataNode（DN）：在本地文件系统存储文件块数据，以及块数据的校验和。

（3）SecondaryNameNode（2NN）：每隔一段时间对NameNode元数据进行备份。

MapReduce架构概述

MapReduce是一个分布式运算程序的编程框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个Hadoop集群上。

MapReduce 将计算过程分为两个阶段：Map 和 Reduce

Map 阶段并行处理输入数据
Reduce 阶段对 Map 阶段处理的结果进行汇总

YARN架构概述

Yet Another Resource Negotiator，简称 YARN ，是另一种资源协调者，是Hadoop的资源管理器。

（1）ResourceManager（RM）：整个集群资源（内存、CPU等）的老大（管理者）。

（2）NodeManager（NM）：单个节点服务器资源老大（管理者）。

（3）ApplicationMaster（AM）：单个任务运行的老大（管理者）。

（4）Container ：容器，相当于一台独立的服务器，里面封装了任务运行所需要的资源，如内存、CPU、磁盘、网络等。

说明：

客户端可以有多个（集群支持多客户端访问）
集群上可以运行多个ApplicationMaster（运行多个任务）
每个NodeManager上可以有多个Container（数量由服务器配置决定）

二、常用端口号

企业大都在用 Hadoop2.x ，但 3.x 是个趋势，所以额额都要会。

端口名称	Hadoop2.x	Hadoop3.x
NameNode 内部通信端口	8020 / 9000	8020 / 9000 / 9820
NameNode 对用户的查询端口	50070	9870
Yarn 查看任务运行情况端口	8088	8088
历史服务器通信端口	19888	19888

三、常用的配置文件

Hadoop2.x ：core-site.xml 、hdfs-site.xml 、mapred-site.xml 、yarn-site.xml 、slaves

Hadoop3.x ：core-site.xml 、hdfs-site.xml 、mapred-site.xml 、yarn-site.xml 、workers

四、HDFS

HDFS文件块大小

HDFS中的文件在物理上是分块存储的（Block），块的大小可以通过配置参数（dfs.blocksize）来规定，默认大小在 Hadoop2.x / 3.x 版本中是128M，1.x版本中是64M 。（中小公司一般128M）

思考：为什么块的大小不能设置太小，也不能设置太大？

（1）HDFS的块设置太小，会增加寻址时间，程序一直在找块的开始位置。

（2）如果块设置的太大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时，会非常慢。（另外，块设置的太大还叫啥分布式存储呀，没意义了）

总结：HDFS块大小的设置主要取决于磁盘传输速率。

HDFS的Shell操作

我在 HDFS的Shell操作这篇文章里详细写了，这里就不多说了。

HDFS的读写流程

HDFS的写数据流程

（1）客户端通过 Distributed FileSystem 模块向 NameNode 请求上传文件，NameNode检查权限（每个文件都有所属的用户、用户组）；目标文件是否已存在，父目录是否存在。

（2）NameNode 向客户端回答是否可以上传。

（3）客户端请求第一个 Block 上传到哪几个 DataNode 服务器上。

（4）NameNode 返回3个 DataNode 节点，分别为DN1、DN2、DN3，表示采用这三个节点存储数据。

（5）客户端通过 FSDataOutputStream 模块请求DN1上传数据，DN1收到请求会继续调用DN2，然后DN2调用DN3，将这个通信管道建立完成。

（6）DN1、DN2、DN3逐级应答客户端。

（7）客户端开始往DN1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，DN1收到一个Packet就会传给DN2，DN2传给DN3；DN1 每传一个packet会放入一个应答队列等待应答。（防止发送失败，备份了一份下次还可以重发）

（8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

HDFS的读数据流程

（1）客户端通过 DistributedFileSystem 向 NameNode 请求下载文件，NameNode 通过查询元数据，找到文件块所在的 DataNode 地址。

（2）挑选一台 DataNode服务器（考虑：就近原则，负载均衡），请求读取数据。

（3）DataNode 开始传输数据给客户端（从磁盘里面读取数据输入流，以Packet为单位来做校验）。

（4）客户端以Packet为单位接收，先在本地缓存，然后写入目标文件。

五、MapReduce

一、输入数据接口：InputFormat

（1）默认使用的实现类是：TextInputFormat 输入kv：key 偏移量；v 一行内容。
TextInputFormat的功能逻辑是：一次读一行文本，然后将该行的起始偏移量作为key，行内容作为value返回。

（2）处理小文件是：CombineTextInputFormat，把多个小文件合并到一起统一切片，提高处理效率。

二、逻辑处理接口：Mapper

用户根据业务需求实现其中三个方法：setup() 初始化、map() 用户的业务逻辑、clearup() 关闭资源

三、分区：Partitioner

（1）默认分区 HashPartitioner，按照 key的 hash值%numReduceTask 个数进行分区。

（2）如果业务上有特别的需求，可以自定义分区。

四、排序：Comparable

（1）部分排序：每个输出的文件内部有序。但多个文件整体上是无序的。

（2）全排序：一个reduce，对所有数据进行排序。（企业中慎用，所有数据进入一个reduce，容易撑爆）

（3）二次排序：自定义排序范畴，实现 writableComparable 接口，重写 compareTo 方法。

（4）当我们用自定义的对象作为key来输出时，就必须要实现writableComparable接口，重写其中的compareTo()方法。

五、合并：Combiner

Combiner合并可以提高程序执行效率，减少IO传输。但是使用时必须不能影响原有的业务处理结果。

使用前提：不影响最终的业务逻辑。（求和可以，求平均值不行）
好处：提前预聚合map —— 也是解决数据倾斜的办法。（mapTask个数多，每个都分担一点，减小了所有数据全部传入一个Reduce的压力，所以能在map阶段处理的尽量在map阶段早处理）

六、逻辑处理接口：Reducer

用户根据业务需求实现其中三个方法：setup() 初始化、reduce() 用户的业务逻辑、clearup() 关闭资源

七、输出数据接口：OutputFormat

（1）默认实现类是 TextOutputFormat ，按行输出到文件。功能逻辑是：将每一个KV对，向目标文本文件输出一行。

（2）用户还可以自定义OutputFormat。

MapReduce工作流程

（1）首先客户端对待处理的文件进行切片操作

（2）然后客户端向yarn提交三个文件，job的切片、jar包、job的xml（存放job运行相关参数）

（3）yarn会开启一个MrAppMaster（整个任务的管理者）去读取客户端提供的信息，根据切片信息对应开启MapTask的个数

（4）MapTask通过InputFormat读取待处理文件，默认是TestInputFormat，读完后把数据返回给Mapper

（5）Mapper通过用户自己写的业务逻辑进行计算

（6）Mapper计算完后将数据输出到环形缓冲区，环形缓冲区默认大小是100M，数据量到达80%时进行反向溢写

（7）溢写前对分区内数据进行排序，排序规则是快速排序（数据写入环形缓冲区之前就已经分好区了，此时不用分区直接排序即可）

（8）当数据量达到80%时，将环形缓冲区里分区且区内有序的数据溢写到磁盘上

（9）使用归并排序，保证每个分区内部是有序的。把排好序的数据存储到磁盘上

（10）Combiner对数据进行预聚合，优化reduce效率

（11）所有MapTask任务完成后，启动相应数量的ReduceTask，并告知ReduceTask数据的分区

（12）ReduceTask主动拉取mapTask中指定分区的数据，存储到磁盘上

（13）将从各mapTask中拉取的数据进行合并并排序，排序规则是归并排序

（14）Reducer一次读取一组相同key的数据

（15）由OutPutFormat将reducer的数据往文件中写，默认使用TextOutPutFormat

shuffle机制

Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。

（1）从Map方法出来后，数据先进入getPartition方法，标记数据是哪一个分区

（2）之后进入环形缓冲区，环形缓冲区默认大小100M，左侧存索引，右侧存数据，数据量到达80%进行反向溢写

（3）溢写前还要对数据进行排序，排序方式是快速排序，对key的索引按照字典顺序排

（4）溢写会产生两个文件，溢写的index索引文件和溢写的真正数据文件

（5）在聚合操作的场景下也有Combiner，Combiner对数据进行预聚合，使传输到reduce端的数据量小了，优化reduce效率

（6）使用归并排序，保证每个分区内部是有序的

（7）数据按照分区写在磁盘上，等待reduce端拉取

（8）ReduceTask拉取指定分区的数据，数据先存放在内存中，如果内存不够会溢写到磁盘上

（9）对每个map来的数据归并排序

（10）按照相同key分组，进入Reduce方法

六、Yarn

Yarn工作机制

（0）MR（MapReduce）程序提交到客户端所在的节点。

（1）YarnRunner向ResourceManager申请一个Application。

（2）RM将该应用程序的资源路径返回给YarnRunner。

（3）该程序将运行所需资源提交到HDFS上。

（4）程序资源提交完毕后，申请运行MrAppMaster。

（5）RM将用户的请求初始化成一个Task。

（6）其中一个NodeManager领取到Task任务。

（7）该NodeManager创建容器Container（因为任何任务的执行都是在容器里面执行的），并启动MrAppMaster进程。

（8）Container从HDFS上拷贝资源到本地。

（9）MRAppmaster向RM申请运行MapTask资源。

（10）RM将运行MapTask任务分配给另外两个NodeManager，它们分别领取任务并创建容器（有几个切片就开启几个Container容器）。

（11）MR向两个接收到任务的NodeManager发送程序启动脚本，这两个NodeManager分别启动MapTask，MapTask对数据分区排序。

（12）MrAppMaster等待所有MapTask运行完毕后，向RM申请容器，运行ReduceTask程序。

（13）ReduceTask向MapTask获取相应分区的数据。

（14）程序运行完毕后，MR会向RM申请注销自己，同时相关的MapReduce的资源也释放掉。

Yarn调度器

（1）调度器有三种：

FIFO（先进先出）、Capacity Scheduler（容量调度器）和Fair Sceduler（公平调度器）。

Apache 默认的资源调度器是容量调度器；
CDH 默认的资源调度器是公平调度器。

容量和公平调度器默认都是只有一个default队列，一个default队列在生产环境中不能满足并发要求，所以要创建多队列。

（2）每个调度器特点：

FIFO调度器：支持单队列、先进先出。生产环境不会用。
容量调度器：支持多队列，保证先进入的任务优先执行。
公平调度器：支持多队列，保证队列里的每个任务公平享有队列资源。资源不够时可以按照缺额分配。

（3）在生产环境下怎么选择？

中小公司：对并发度要求不高，集群服务器资源不太充裕，选择容量。
大厂：对并发度要求比较高，选择公平，要求服务器性能必须OK；

（4）在生产环境怎么创建多队列？ —— 调度器默认就1个default队列，不能满足生产要求

按照框架（小企业）：hive /spark/ flink 每个框架的任务放入指定的队列（企业用的不是特别多）
按照业务模块（中大企业）：登录注册、购物车、下单、业务部门1、业务部门2

业务部门1（重要）→ 业务部门2（比较重要）→ 下单（一般）→ 购物车（一般）→ 登录注册（次要）

（5）创建多队列的好处？

降低风险：防止员工不小心写递归死循环代码，把所有资源全部耗尽，导致整个集群瘫痪。
降级使用：实现任务的降级使用，特殊时期（双11、618）保证重要的任务队列资源充足。

Hadoop 学 xff xff0c xff0 mapreduce 大数据 yarn hdfs

有关学完了Hadoop，我总结了这些重点的更多相关文章

SPI接收数据异常问题总结 - 2
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位（1bit）。SPI数据收发是数据交换，因此接收数据时从第二个字节开始才是有效数据，也就是数据整体向右移一个字节（1byte）。请教前辈之后也没有得到解决，通过在网上查阅前人经验终于解决问题，所以写一个避坑经验总结。实际背景：MCU与一款芯片使用spi通信，MCU作为主机，芯片作为从机。这款芯片采用的是它规定的六线SPI，多了两根线：RDY和INT，这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - 为什么这些方法没有解决？ - 2
这个问题在这里已经有了答案:WhydoRubysettersneed"self."qualificationwithintheclass?(3个答案)关闭29天前。给定这段代码:classSomethingattr_accessor:my_variabledefinitialize@my_variable=0enddeffoomy_variable=my_variable+3endends=Something.news.foo我收到这个错误:test.rb:9:in`foo':undefinedmethod`+'fornil:NilClass(NoMethodError)fromtes
Simulink方法总结和避坑指南（一）——Simulink入门与基本调试方法 - 2
文章目录一、项目场景二、基本模块原理与调试方法分析——信源部分：三、信号处理部分和显示部分：四、基本的通信链路搭建：四、特殊模块：interpretedMATLABfunction：五、总结和坑点提醒一、项目场景最近一个任务是使用simulink搭建一个MIMO串扰消除的链路，并用实际收到的数据进行测试，在搭建的过程中也遇到了不少的问题（当然这比vivado里面的debug好不知道多少倍）。准备趁着这个机会，先以一个很基本的通信链路对simulink基础和相关的debug方法进行总结。在本篇中，主要记录simulink的基本原理和基本的SISO通信传输链路（QPSK方式），计划在下篇记
python - 这些脚本语言中哪种更适合渗透测试？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion首先，我想避免一场关于语言的口水战。可供选择的语言有Perl、Python和Ruby。我想提一下，我对所有这些都很满意，但问题是我不能只专注于一个。例如，如果我看到一个很棒的Perl模块，我必须尝试一下。如果我看到一个不错的Python应用程序，我必须知道它是如何制作的。如果我看到RubyDSL或一些Ruby巫术，我就会迷上Ruby一段时间。目前我是一名Java开发人员，但计划在不久的将来
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
【动态规划】背包问题（详细总结，很全） - 2
【动态规划】一、背包问题1.背包问题总结1）动规四部曲：2）递推公式总结：3）遍历顺序总结：2.01背包1）二维dp数组代码实现2）一维dp数组代码实现3.完全背包代码实现4.多重背包代码实现一、背包问题1.背包问题总结暴力的解法是指数级别的时间复杂度。进而才需要动态规划的解法来进行优化！背包问题是动态规划（DynamicPlanning）里的非常重要的一部分,关于几种常见的背包，其关系如下：在解决背包问题的时候，我们通常都是按照如下五部来逐步分析，把这五部都搞透了，算是对动规来理解深入了。1）动规四部曲：（1）确定dp数组及其下标的含义（2）确定递推公式（3）dp数组的初始化（4）确定遍历顺
ruby-on-rails - 这些 Ruby 版本中存在 heroku 命令吗？ - 2
在我使用rbenv更新我的Ruby版本后，我无法使用Heroku命令行工具。我收到此错误:>herokurbenv:heroku:commandnotfoundThe`heroku'commandexistsintheseRubyversions:2.0.0-p195从toolbelt.heroku.com重新安装工具带没有帮助。最佳答案我切换到我以前的Ruby版本2.0.0p195并卸载了gem'heroku'rbenvglobal2.0.0p195gemuninstallheroku然后我切换到最新的Ruby版本2.0.0p
ruby-on-rails - 为什么我在运行 "gem pristine --all"后不断收到这些错误 - 2
我尝试运行gempristine--all并且我不断在控制台中获取它。当我运行gempristine--all我得到这个:权限被拒绝....我什至尝试为每个gem执行geminstall并且仍然得到这个:`Ignoringbinding_of_caller-0.7.2becauseitsextensionsarenotbuilt.Try:gempristinebinding_of_caller--version0.7.2Ignoringbyebug-5.0.0becauseitsextensionsarenotbuilt.Try:gempristinebyebug--version5.
Ubuntu下Hadoop的单机安装 - 2
云计算实验中要求我们在Linux系统安装Hadoop，故来做一个简单的记录。· 注：我的操作系统环境是Ubuntu-20.04.3，安装的JDK版本为jdk1.8.0_301，安装的Hadoop版本为hadoop2.7.1。（不确定其他版本是否会出现版本兼容问题）Hadoop安装步骤如下：一、更新apt和安装vim编辑器二、配置本机无密码登录SSH 三、安装JAVA环境四、下载安装Hadoop 五、伪分布式搭建一、更新apt和安装vim编辑器1、更新aptsudoapt-getupdate2、安装vim