hadoop之MapReduce框架原理

小唐同学(๑>؂<๑） 2023-04-14 原文

MapReduce框架的简单运行机制：

MapReduce是分为两个阶段的，MapperTask阶段，和ReduceTask阶段。（中间有一个Shuffle阶段）

Mapper阶段，可以通过选择什么方式（K,V的选择对应不同的方法）来读取数据，读取后把数据交给Mapper来进行后续的业务逻辑（用户写），让后进入Reduce阶段通过Shuffle来拉取Mapper阶段的数据，让后通过OutputFormat(等方法)来写出（可以是ES,mysql，hbase，文件）

Mapper阶段：

InputFormat数据输入：

切片与MapTask并行度决定机制：

MapTask个数，决定了并行度（相当于在生成map集合的过程中有几个人在干活），**（不一定越多越好，当数据量小的时候可能开启的众多MapTask的时间用一个MapTask已经计算完成）

数据块：Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。

数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位，一个切片会对应启动一个MapTask。

job提交过程源码解析：

因为我们找的job提交，所以在job提交函数哪里打个断点，

步入函数后

ensureState(JobState.DEFINE);  是确保你的状态是正确的（状态不对或者running 都会抛异常）

setUseNewAPI();       处理Hadoop不同版本之间的API兼容

connect();          连接，（客户端需要与集群或者本机连接）

checkSpecs(job); 校验 校验输出路径是否已经创建，是否有参

return submitter.submitJobInternal(Job.this, cluster);   核心代码    步入的时候需要点两下，

第一个步入是步入的参数Job 第二个才步入此方法

这个方法是提交job（在集群模式下，提交的job包含（通过客户端方式把jar包提交给集群），在本地不需要提交jar包，jar在本地是存在的）

还会进行切片，生成切片信息（几个切片就有几个MapTask）

还会生成xml文件

综上 job提交会交三样东西（jar,xml文件，切片信息---》集群模式下）

最后会删除所有的信息文件

切片逻辑：

**（切片是每一个文件单独切片）

在本地是32m一块，前边说过，默认一块对应一个切片，但是有前提条件，再你减去32m的时候，余下最后一块如果大于1.1倍就重新分配切片，但如果小于1.1，则不能更新分片

例子1：

已有一个32.1m的数据物理分块是（32m+0.1m）切片分布是（1个切片，因为32.1/32=1.003125<1.1 所以使用一个切片）

例子2：

已有一个100m的数据

100-32-32=36>32(36/32=1.125>1.1 所以最后36m需要分配两个切片)

**块的大小没办法改变，但是可以调切片大小（maxSize让切片调小）（minSize让切片调大）

切片总结：

（开一个MapTask 默认是占1g内存+1个cpu）

1）FileInputFormat实现类

思考：在运行MapReduce程序时，输入的文件格式包括：基于行的日志文件、二进制格式文件、数据库表等。那么，针对不同的数据类型，MapReduce是如何读取这些数据的呢？

FileInputFormat常见的接口实现类包括：TextInputFormat、KeyValueTextInputFormat、NLineInputFormat、CombineTextInputFormat和自定义InputFormat等。(应用场景的不同选择不同的接口实现类)

TextInputFormat是默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量， LongWritable类型。值是这行的内容，不包括任何行终止符（换行符和回车符），Text类型。

CombineTextInputFormat用于小文件过多的场景，它可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。

进行虚拟存储

（1）虚拟存储过程：

将输入目录下所有文件大小，依次和设置的setMaxInputSplitSize（切片大小）值比较，如果不大于设置的最大值，逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍，那么以最大值切割一块；当剩余数据大小超过设置的最大值且不大于最大值2倍，此时将文件均分成2个虚拟存储块（防止出现太小切片）。

测试：

再不使用CombineTextInputFormat情况下（默认TextInputFormat）

可以看到切片为4

添加代码，设置实现类为CombineTextInputFormat 和设置虚拟存储切片大小

// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

可以看到，现在是3个切片

我们可以通过改变虚拟切片大小来改变调用的切片的数量

综上：影响切片的数量的因素为：（1）数据量的大小（2）切片的大小（一般会自动调整）（3）文件格式（有些文件是不可切片的）

影响切片大小的因素： HDFS中块的大小（通过调maxsize,minsize与块的大小进行比较来判断）

Shuffle阶段：

shuffle阶段是一个从mapper阶段出来的后的阶段，会写入（k,v）一个环形缓冲区（缓冲区分为两半，一半存储索引，一半存储数据，默认100m,到达80%后会反向逆写（减少时间消耗，提高效率，逆写是因为不需要等待全部溢写后在进行写入操作）逆写入文件前会进行分区（分区的个数与reduceTask的个数有关）排序（对key进行排序，但是存储位置并不发生改变，只改变索引的位置，改变存储位置消耗资源较大））写入文件后会进行归并排序（在有序的情况下，归并是最高效的））

排序：

排序可以自定义排序，举例全排序：

自定义了一个Bean类，bean对象做为key传输，需要实现WritableComparable接口重写compareTo方法，就可以实现排序。

Combiner合并：

并不满足所有生产环境下，只有在不影响最终业务逻辑下才可以实现（求和就可以，算平均值就不可以）

combiner与reducetask区别如下：

ReduceTask阶段:

（1）Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。

（2）Sort阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个MapTask已经实现对自己的处理结果进行了局部排序，因此，ReduceTask只需对所有数据进行一次归并排序即可。

（3）Reduce阶段：reduce()函数将计算结果写到HDFS上。

ReduceTask的个数可以手动进行设置，设置几就会产生几个文件（分区同上）

Reduce Join：

简述流程：

（1）自定义bean对象（序列化反序列化函数---implements Writable）

（2）写mapper类先重写setup方法（因为本案例需要两个文件，初始化（读多个文希望先获取到文件名称（多文件）一个文件一个切片 setup方法是一个优化手段获取文件名称）

（3）写reduce类（业务逻辑）先创建一个集合（类型为bean类型）和bean对象用于存储

用for循环遍历value（key是一样的一样的key才会进入同一个reduce方法）

获取文件名判断写出不同的业务逻辑

"order"表：

先创建一个bean对象，用于存储数据，用于后续写入集合

用到方法 BeanUtils.copyProperties(tmpOrderBean,value); 获取原数据

让后加入上述创建的集合 orderBeans.add(tmpOrderBean);

“pd”表：

BeanUtils.copyProperties(pdBean,value);直接获取原数据

存储结束，结合阶段：

使用增强for

orderbean.setPname(pdBean.getPname());

使用set函数直接设置集合中的pname

让后写入

context.write(orderbean,NullWritable.get());
业务结束

Reduce Join的缺点：这种方式中，合并的操作是在Reduce阶段完成，Reduce端的处理压力太大，Map节点的运算负载则很低，资源利用率不高，且在Reduce阶段极易产生数据倾斜。

Map Join：

使用场景

Map Join适用于一张表十分小、一张表很大的场景。

Map端实现数据合并就解决了Reduce Join的缺点（数据倾斜）

简述流程：

在map类中

setup方法：将较小文件读入缓存，将数据存储到全局的map集合中，将缓存中的数据全部写入

重写的map方法中：

转换成字符串在切割，通过切割后的数组获取map集合中的pname

让后重新设置输出文件的格式进行写出

（至此mapreduce完结！！！！）

有关hadoop之MapReduce框架原理的更多相关文章

TimeSformer：抛弃CNN的Transformer视频理解框架 - 2
Transformers开始在视频识别领域的“猪突猛进”，各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解，本篇主要介绍了FBAI团队的TimeSformer，这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用，就请点赞、收藏、关注！paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby - sinatra 框架的 MVC 模式 - 2
我想开始使用“Sinatra”框架进行编码，但我找不到该框架的“MVC”模式。是“MVC-Sinatra”模式或框架吗？最佳答案您可能想查看Padrino这是一个围绕Sinatra构建的框架，可为您的项目提供更“类似Rails”的感觉，但没有那么多隐藏的魔法。这是使用Sinatra可以做什么的一个很好的例子。虽然如果您需要开始使用这很好，但我个人建议您将它用作学习工具，以对您来说最有意义的方式使用Sinatra构建您自己的应用程序。写一些测试/期望，写一些代码，通过测试-重复:)至于ORM，你还应该结帐Sequel其中(imho
ruby-on-rails - 正确了解 Rails 框架的最佳方式是什么？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。我一直在Rails上做两个项目，它们运行良好，但在这个过程中重新发明了轮子，自来水(和热水)和止痛药，正如我随后了解到的那样，这些已经存在于框架中。那么基本上，正确了解框架中所有智能部分的最佳方法是什么，这将节省时间而不是自己构建已经实现的功能？从第1页开始阅读文档？是否有公开所有内容的特定示例应用程序？一个特定的开源项目？所有的rails交通？还是完全
ruby - 自动将院子文档框架添加到现有的 Rails 遗留代码中 - 2
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭4年前。Improvethisquestion我希望能够将模板化的YARD文档样式注释插入到我现有的Rails遗留应用程序中。目前它的评论很少。我想要具有指定参数的类header和方法header(通过从我假定的方法签名中提取)和返回值的占位符。在PHP代码中，我有一些工具可以检查代码并在适当的位置创建插入到代码中的文档header注释。在带有Ducktyping等的Ruby中，我确信诸如@params等类型之类
ruby-on-rails - 具有六边形架构和 DCI 模式的框架和数据库适配器 - 2
我尝试用Ruby设计一个基于Web的应用程序。我开发了一个简单的核心应用程序，在没有框架和数据库的情况下在六边形架构中实现DCI范例。核心六边形中有小六边形和网络，数据库，日志等适配器。每个六边形都在没有数据库和框架的情况下自行运行。在这种方法中，我如何提供与数据库模型和实体类的关系作为独立于数据库的关系。我想在将来将框架从Rails更改为Sinatra或数据库。事实上，我如何在这个核心Hexagon中实现完全隔离的rails和mongodb的数据库适配器或框架适配器。有什么想法吗？最佳答案 ROM呢？(Ruby对象映射器)。还有
python - Ruby 是否有相当于 Python 的扭曲框架作为网络抽象层？ - 2
据我了解，Python的扭曲框架为网络通信提供了更高级别的抽象(？)。我正在寻找在Rails应用程序中使用与twisted等效的Ruby。最佳答案看看EventMachine.它不像Twisted那样广泛，但它是围绕事件驱动网络编程的相同概念构建的。关于python-Ruby是否有相当于Python的扭曲框架作为网络抽象层？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/9
【Unity游戏破解】外挂原理分析 - 2
文章目录认识unity打包目录结构游戏逆向流程Unity游戏攻击面可被攻击原因mono的打包建议方案锁血飞天无限金币攻击力翻倍以上统称内存挂透视自瞄压枪瞬移内购破解Unity游戏防御开发时注意数据安全接入第三方反作弊系统外挂检测思路狠人自爆实战查看目录结构用il2cppdumper例子2-森林whoishe后记认识unity打包目录结构dll一般很大，因为里面是所有的游戏功能编译成的二进制码游戏逆向流程开发人员代码被编译打包到GameAssembly.dll中使用il2ppDumper工具，并借助游戏名_Data\il2cpp_data\Metadata\global-metadata.dat
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
ruby-on-rails - 使用 Rails 以外的 Ruby 框架是否有任何潜在的缺点？ - 2
我想使用比Rails(Sinatra/Ramaze/Camping)更轻的框架，但我担心这样做我将无法使用许多以插件形式为Rails定制的共享库.这是一个主要问题，还是这些插件中的大多数都可以跨不同的Ruby框架使用？使用Ruby框架而不是Rails是否还有其他潜在的缺点？最佳答案您仍然可以使用gems在你提到的所有框架中，很多东西都是可重用的。想要交换一个新的ORM，没问题。想要一个花哨的shmacy语法高亮，没问题。Rails一直在大力插入摆脱旧的插件模型，转而使用gems。如果其他框架之一符合您的需求，最好使用它。请记住，