Iterator-reducer

java - Hadoop Reduce 输入记录=0

我是Hadoop的新手，我的map-reduce代码可以工作，但它不会产生任何输出。这是map-reduce的信息:16/09/2013:11:40INFOmapred.JobClient:Jobcomplete:job_201609081210_007816/09/2013:11:40INFOmapred.JobClient:Counters:2816/09/2013:11:40INFOmapred.JobClient:Map-ReduceFramework16/09/2013:11:40INFOmapred.JobClient:SpilledRecords=016/09/2013:

hadoop - 为什么所有的 reduce 任务都在一台机器上结束？

我在Hadoop平台(cloudera发行版)写了一个比较简单的map-reduce程序。除了常规的map-reduce任务之外，每个Map&Reduce都会将一些诊断信息写入标准输出。然而，当我查看这些日志文件时，我发现Map任务相对均匀地分布在节点之间(我有8个节点)。但是reduce任务标准输出日志只能在一台机器上找到。我想，这意味着所有的reduce任务最终都在一台机器上执行，这是有问题的和令人困惑的。有人知道这里发生了什么吗？是配置问题吗？我怎样才能使减少的工作也均匀分布？最佳答案如果您的映射器的输出都具有相同的键，它

hadoop reduce section reducer mapreduce load-balancing

hadoop - 指定 reducer 时的中间输出

我编写了一个HadoopMapReduce作业。当我在本地运行它时，我注意到如果我没有指定任何reduce任务，就会有一些临时文件写入输出目录。如果我指定reducer，则不会写入任何临时文件。这是正常行为吗？我希望看到写入的临时文件，否则这将意味着映射器试图在内存中执行所有操作，然后传输到内存中的reducer。这让我觉得难以置信。如果能深入了解映射器如何/何时/何地将中间输出写入文件系统，我们将不胜感激。谢谢最佳答案 Map任务将它们的输出写入本地磁盘，而不是HDFS。map输出是中间输出:它由reduce任务处理以产生最终输

reducer hadoop section 射器

jar - 如何在我的 map/reduce 作业中使用更新版本的 hadoop/lib jar？

Hadoop目前在其lib文件夹中附带commons-httpclient-3.0.1.jar。如果我有一个需要commons-httpclient-3.1.jar的map/reduce任务，将这个jar捆绑到我的hadoopjar的lib文件夹中似乎是不够的(就像对任何普通的外部jar所做的那样)依赖项)，因为hadoop似乎正在从其lib文件夹中加载以前的jar，而不是使用我提供的那个。不可能使用hadoop也使用的不同版本的jar？最佳答案如果一切都失败了，使用maven-shade-plugin重命名commons-ht

何在 jar section hadoop classloader

java - 每个 HBase 表一个 Reducer

基本上，我需要将数据路由到正确的Reducer。每个Reducer都将成为一个TableReducer。我有以下文件venodor1,user1,xxxx=nvenodor1,user1,xxxx=nvenodor2,user2,xxxx=nvenodor2,user2,xxxx=n我需要将其插入到以下hbase表中表供应商1:[user1]=>{数据:xxxx=n}[user2]=>{data:xxxx=n}表供应商2:[user1]=>{数据:xxxx=n}[user2]=>{data:xxxx=n}格式为[ROW_ID]=>{[FAMILY]:[COLUMN]=[VALUE]}每

Reducer HBase section user xxxx java hadoop cascading

python - 具有二进制可执行文件的 Hadoop/Elastic Map Reduce？

我正在使用hadoop流、python、matlab和elasticmapreduce编写分布式图像处理应用程序。我已经使用matlab编译器编译了我的matlab代码的二进制可执行文件。我想知道如何将其合并到我的工作流程中，以便二进制文件成为Amazon的弹性mapreduce处理的一部分？看来我必须使用Hadoop分布式缓存？代码非常复杂(而且不是我写的)所以现在不可能将它移植到另一种语言。谢谢最佳答案以下内容并不完全是对您的Hadoop问题的回答，但我忍不住要问您为什么不在Grid资源上执行处理作业？有用于在网格上执行计算

Elastic python section matlab Hadoop amazon-web-services mapreduce

java - 连接来自 SequenceFileOutputFormat 的 reducer 输出

我有一份工作使用100个配置为setOutputFormat(SequenceFileOutputFormat.class);作业运行后，我可以通过以下方式组合所有零件文件吗？以下命令并让事情正常工作压缩？hadoopfs-cat输出/部分*>fullOutput如果不是，那么使用多个的首选方法是什么reducers，然后将它们的所有输出集中到一个文件中？非常感谢，--艺术最佳答案您使用的是什么压缩？对于某些编解码器，这肯定行不通。例如，Lzop编解码器在每个文件的开头都有标题，因此如果您只是加入文件，它们就会在其中散布标题。L

SequenceFileOutputFormat reducer section java hadoop reducers

apache - 哈多普 : supporting multiple outputs for Map Reduce jobs

似乎Hadoop(reference)支持它，但我不知道如何使用它。我想:a.)Map-ReadahugeXMLfileandloadtherelevantdataandpassontoreduceb.)Reduce-writetwo.sqlfilesfordifferenttables为什么我选择map/reduce是因为我必须对驻留在磁盘上的超过100k(可能更多)xml文件执行此操作。欢迎大家提出更好的建议感谢任何解释如何使用它的资源/教程。我正在使用Python并且想学习如何使用streaming实现这一点谢谢最佳答案这

supporting multiple section code reduce apache hadoop mapreduce

java - Hadoop:为什么一个狂写的reduce任务会超时？

我有一个Hadoopreduce任务，它分批读取其输入记录并进行大量处理，并为每个输入批处理写入大量输出。我有readHadoop认为写入输出是为了终止挂起任务的“进度”。然而，尽管不断写入大量输出，但我的任务仍会超时并被终止。那么:我如何才能知道Hadoop认为任务上次报告进度的时间？为什么我必须对每个context.write()调用context.progress()？有没有写作不算进步的情况？(例如，我的key是NullWritable。)我在CentOS5.7上使用ClouderaCDH3u1，如果这有什么不同的话。最佳答案

Hadoop reduce section code java timeout

Hadoop API : OutputFormat for Reducer

我对hadoopAPI完全困惑。(猜猜它一直在变化)如果我没记错的话，JobConf已被弃用，我们应该使用Job和Configuration类而不是从java运行mapreduce作业。似乎最近发布的hadoop1.0.0JobConf不再被弃用!所以我正在使用Job和配置类来运行mapreduce作业。现在，我需要根据map输出中的某些值将reducer输出文件放在文件夹结构中。我浏览了几篇文章，发现可以使用OutputFormat类来实现这一点，但我们在两个包中都有这个类:org.apache.hadoop.mapredandorg.apache.hadoop.mapreduce在

OutputFormat Reducer code section hadoop mapreduce hadoop-streaming

103 104 105106107 108 109