reducer-combiner

hadoop - Hadoop Map Reduce 代码的前 N 个值

我是hadoop世界的新手，正在努力完成一项简单的任务。任何人都可以告诉我如何通过仅使用Mapreduce代码技术来获取单词计数示例的前n个值吗？我不想为这个简单的任务使用任何hadoop命令。最佳答案您有两个明显的选择:有两个MapReduce作业:WordCount:计算所有的单词(几乎就是这个例子)TopN:一个MapReduce作业，用于查找某事物的前N个(这里有一些示例:sourcecode、blogpost)将WordCount的输出写入HDFS。然后，让TopN读取该输出。这称为作业链，有多种方法可以解决此问题

hadoop - 使用 Hadoop，我的 reducers 是否保证获得具有相同键的所有记录？

我正在使用Hive运行一个Hadoop作业，实际上它应该是许多文本文件中的uniq行。在减少步骤中，它为每个键选择最近的时间戳记录。Hadoop是否保证映射步骤输出的每条具有相同键的记录都将转到单个reducer，即使多个reducer在集群中运行也是如此？我担心在一组具有相同键的记录中间发生洗牌后，映射器输出可能会被拆分。最佳答案键的所有值都发送到同一个缩减器。看这个Yahoo!tutorial进行更多讨论。此行为由分区程序决定，如果您使用默认分区程序以外的分区程序，则可能并非如此。

reducers hadoop section strong 中运 mapreduce hive uniq

hadoop - 在 map reduce 中计算中位数

有人可以举例说明mapreduce中中位数/分位数的计算吗？我对Datafu中位数的理解是，'n'个映射器对数据并将数据发送到负责排序的“1”reducer来自n个映射器的所有数据并找到中位数(中间值)我的理解正确吗？，如果是这样，这种方法是否适用于海量数据，我可以清楚地看到一个单一的reducer努力完成最后的任务。谢谢最佳答案试图在一系列中找到中位数(中间数)将需要1个reducer传递整个数字范围以确定哪个是“中间”值。根据输入集中值的范围和唯一性，您可以引入组合器来输出每个值的频率-减少发送到单个缩减器的映射输出数量。然

中计 hadoop reducer section 中值 statistics mapreduce apache-pig median

EC2 上的 Hadoop 与 Elastic Map Reduce

我正在尝试评估这两个选项之间的差异。以下是我能想到的一些优缺点:ElasticMapReduce=>来自Amazon的更好支持，无需管理集群，更昂贵(？)EC2+Hadoop=>更多地控制您的hadoop配置，更便宜(？)我想知道是否有人针对EMR对EC2+Hadoop的性能进行了基准测试？大型集群部署的成本是否有显着差异？还有哪些区别？最佳答案我们在工作中使用这两种方法(EMR和EC2)。Amar提到的EMR的优势或多或少是正确的:因此，如果您想要简单，它可能是可行的方法。但是还有其他的考虑:EMR的版本远远落后于apache

Elastic Hadoop 205 section amazon-web-services

hadoop - Hive 如何为一个工作选择 reducer 的数量？

有几个地方说Hadoop作业中默认的reducer数量是1。您可以使用mapred.reduce.tasks符号手动设置reducer的数量。当我运行Hive作业(在AmazonEMR、AMI2.3.3上)时，它有一些大于1的reducer。查看工作设置，有些东西设置了mapred.reduce.tasks，我假设是Hive。它是如何选择那个数字的？注意:这里是运行Hive作业时的一些消息，应该是一个线索:...Numberofreducetasksnotspecified.Estimatedfrominputdatasize:500Inordertochangetheaveragel

何为 reducer reducers section hadoop hive

caching - 缓存是 spark 相对于 map-reduce 的唯一优势吗？

我已经开始学习ApacheSpark，并且对该框架印象深刻。尽管一直困扰我的一件事是，在所有Spark演示中，他们都在谈论Spark如何缓存RDD，因此需要相同数据的多个操作比MapReduce等其他方法更快。所以我的问题是，如果是这种情况，那么只需在Yarn/Hadoop等MR框架内添加一个缓存引擎即可。为什么要完全创建一个新框架？我确定我在这里遗漏了一些东西，您将能够向我指出一些文档，这些文档可以让我更多地了解spark。最佳答案在内存计算中缓存+对于spark来说绝对是个大事情，但是还有其他事情。RDD(Resilient

map-reduce caching section Spark hadoop apache-spark

hadoop - Hadoop Map Reduce 和 Google Map Reduce 之间的区别

HadoopMapReduce和GoogleMapReduce有什么区别？难道只是Hadoop为mapreduce等提供了标准化？差异中还有什么。最佳答案 GoogleMapReduce和Hadoop是MapReduce框架/概念的两种不同实现(实例)。Hadoop是开源的，GoogleMapReduce不是，实际上没有太多关于它的可用细节。由于他们处理大型数据集，因此他们必须依赖分布式文件系统。Hadoop使用HDFS(Hadoop分布式文件系统)作为标准分布式文件系统，而GoogleMapReduce使用GFS(谷歌文件系统)

Reduce Map section Hadoop MapReduce

hadoop - Yarn 给现有的 map reduce 带来了什么额外的好处？

Yarn的基础设施层与原始mapreduce架构的不同之处如下:在YARN中，作业跟踪器分为两个不同的守护进程，分别称为ResourceManager和NodeManager(特定于节点)。资源管理器只管理资源分配给不同的作业，除了包含一个调度程序，它只负责调度作业而不用担心任何监控或状态更新。不同的资源，如内存、CPU时间、网络带宽等，被放入一个称为ResourceContainer的单元中。不同的AppMasters运行在不同的节点上，它们与这些资源容器中的许多对话，并相应地使用监控/状态详细信息更新节点管理器。我想知道使用这种方法如何从map-reduce的角度提高性能？此外，如

带来 hadoop noreferrer noopener nofollow mapreduce hadoop-yarn

hadoop - “Combiner"mapreduce 作业中的类

Combiner在Mapper之后和Reducer之前运行，它将接收由给定节点上的Mapper实例发出的所有数据作为输入。然后向Reducers发出输出。而且，如果reduce函数既是可交换的又是结合的，那么它可以用作Combiner。我的问题是短语“commutativeandassociative”在这种情况下是什么意思？最佳答案假设您有一个数字列表，123456。此处的关联意味着您可以将您的操作应用于任何子组，然后将其应用于这些子组的结果并获得相同的答案:(1)+(2+3)+(4+5+6)==(1+2)+(3+4)+(5)

mapreduce Combiner section strong 的 hadoop reducers combiners

hadoop - Hadoop MapReduce中Mapper/Reducer的设置和清理方法

是否分别在每个mapper和reducer任务中调用了setup和cleanup方法？或者它们只在整个映射器和缩减器作业开始时被调用一次？最佳答案每个任务都会调用它们，因此如果您有20个映射器在运行，将为每个任务调用设置/清理。一个问题是Mapper和Reducer的标准运行方法不会捕获map/reduce方法周围的异常-因此如果在这些方法中抛出异常，则不会调用清理方法。2020年编辑:如评论中所述，2012年(Hadoop0.20)的这一说法不再正确，清理被称为finallyblock的一部分。

MapReduce Reducer section 射器 strong hadoop