reducer-combiner

hadoop - 为什么要在 MapReduce 框架中使用两个(或更多)reducer？

例如，假设您要统计一个巨大的名称文件中包含的名称。您可以轻松地将文件分成多个block，将其发送到您的映射器，映射器输出到单个reducer，后者又将输出一个包含结果列表的文件。听起来不错!现在两个(或更多)reducer如何帮助这个过程变得更快？据我所知，所有映射器都会向每个reducer发送自己的数据，以便对其进行缩减，并且每个reducer都将输出自己的文件及其结果。因此，在一项工作中——例如使用2个reducer——系统内传输的数据将乘以reducer的数量，并且所有reducer的输出将完全相同(希望如此)。对于某些其他实例来说，拥有多个reducer是否值得？好像我遗漏了什

MapReduce reducer 射器安德鲁 hadoop

java - 出于某种奇怪的原因在 map reduce 程序中获取 NumberFormatException

不确定为什么会出现此错误。我在我的MBP上通过brew安装了hadoop2.7.3。我想我在单节点中运行它我要问的一切都来自thishadooptutorialsite.我收到NumberFormatException错误，但它说它是“空”。首先，这是输入文件:19792323243242526262626252625198026272828283031313130303029198131323232333435363634343434198439383939394142434039383840198538393939394141410040393945每个整数之间只有一个空格。唯一奇

NumberFormatException 出于 java code LocalJobRunner hadoop mapreduce

java - 基于 reducer 值的升序排序

我是hadoopmapreduce编程范例的新手，有人可以告诉我如何轻松地根据值进行排序吗？我尝试实现另一个比较器类，但是有没有更简单的方法，比如通过作业配置来根据reducer的值进行排序。基本上我正在阅读日志文件，我想按升序排列url到hitcount。publicstaticclassTokenizerMapperextendsMapper{privatefinalstaticIntWritableONE=newIntWritable(1);privateTextword=newText();publicvoidmap(Objectkey,Textvalue,Contextcon

升序 reducer IntWritable Text section java hadoop mapreduce hadoop2

hadoop - 从 "reduce input records"到 "reduce input groups"

运行MapRed作业后，我们会得到一些关于该作业的摘要，例如:...reduceinputrecords:10reduceinputgroups:3...我知道这是由组合重复键引起的。我的问题是reducer用来组合记录的方法是什么？key1.equals(key2)orkey1.hashCode==key2.hashCode?谢谢。最佳答案只有compareTo因为键必须实现WritableComparable.key.hashCode()用于分区原因。永远不会使用等于。关于ha

amp reduce section input hadoop mapreduce

hadoop - map reduce 输出文件 : part-r-* and part-*

我对mapreduce输出部分文件有一些疑问。1>part-r-*文件和mapreduce输出的part-*文件有什么区别？part-r-*是mapper的输出，part-*是reducer的输出？2>如果reducer没有产生任何结果，mapper输出将被保留还是被删除？最佳答案通常情况下，part-r-*来自reducer。MultipleOutputs允许您使用不同的命名约定。如果没有减少步骤，输出将是part-m-*。据我了解，如果定义了reducer，则无论reducer是否产生任何内容，映射器输出都会被删除。通常re

part hadoop section reducer mapreduce

hadoop - Mapper 或 Reducer Task 中未处理的异常会使任务失败？

我想知道mapper任务(或reducer任务)中未处理的异常是否会使任务失败，或者仅忽略时间的特定输入对？我想是前者，但不太确定。最佳答案这取决于错误。无论哪种方式，我总是强调用try-catchblock包装map和减少逻辑。出现错误时，我递增一个计数器，其名称派生自异常类名。这不仅可以保护hadoop的其余部分免受逻辑错误的影响，还可以让您仅通过查看日志就知道出了多少问题。关于hadoop-Mapper或ReducerTask中未处理的异常会使任务失败？，我们在StackOv

常会 Reducer section stackoverflow questions hadoop mapreduce

java - Hadoop Map-Reduce 。记录阅读器

我正在尝试解决以下RecordReader问题。输入文件示例:1,12,23,34,45,56,67,7..............我希望我的RecordReader返回key|Value0|1,1:2,2:3,3:4,4:5,54|2,2:3,3:......6,66|3,3:4,4......6,6,7,7(对于第一个值，前五行，对于第二个值，从第二行开始五行，对于第三个值，从第三行开始五行，依此类推)publicclassMyRecordReaderextendsRecordReader{@OverridepublicbooleannextKeyValue()throwsIOEx

阅读器 Map-Reduce code public RecordReader java hadoop mapreduce

java - 如何计算Hadoop Map-Reduce中一组数据的居中移动平均？

我想计算一组数据的中心移动平均值。示例输入格式:quarter|salesQ1'11|9Q2'11|8Q3'11|9Q4'11|12Q1'12|9Q2'12|12Q3'12|9Q4'12|10数据的数学表示和计算移动平均然后居中移动平均PeriodValueMACentered191.5282.59.5399.53.59.541210.04.510.55910.7505.511.06126.579我一直坚持RecordReader的实现，它将提供一年(即四个季度)的映射器销售值(value)。最佳答案这在MapReduce范例中

Map-Reduce Hadoop quarter sales section java mapreduce

Hadoop Map Reduce 对大键空间的查询

我需要定期处理十亿条记录。唯一键可以在1000万个范围内。值为最多200K个字符的字符串。这是我的问题:key空间是否非常大(1000万)。Hadoop能够处理如此大的key空间吗？每个键将有一个reducer，因此将有数百万个reducer。我想更新reducer本身中的数据库。在reducer中，我将合并值(比如当前值)，从数据库中读取现有值(比如现有值)，合并当前值和现有值并更新数据库。这是正确的策略吗？每个盒子可以同时运行多少个reducer？它是可配置的吗？如果一次每个盒子只运行一个reducer，那将是个问题，因为我无法非常快速地更新数据库中键的状态。我希望在2-3小时内完

对大 Hadoop reducer Mapper section mapreduce

sorting - 在向 Hadoop 中的 reducer 发送数据时如何实现负载平衡

我们知道，在hadoop的复制阶段，每个reduceworker进程从所有mapper节点读取数据并对已经排序的数据执行合并(在mapper端的内存排序期间排序)和研究他们的key份额和他们的值(value)。现在，我们也知道，所有对应于一个特定的数据只会去到一个reducer。我的问题是:数据拆分如何传输到reducer，即分区大小是如何决定的，以及它是由什么过程决定的，因为数据是使用拉机制而不是推机制传输的。一个有趣的挑战是确定数据的总体大小，因为数据驻留在多个节点上(我猜作业跟踪器/主进程可能知道所有节点的数据大小和位置，但我也不确定)。如果数据高度倾斜并且其中大部分属于有10个

sorting reducer strong section hadoop mapreduce shuffle reduce

82 83 848586 87 88