Iterator-reducer

hadoop - 如何调试挂起的 hadoop map-reduce 作业

我运行MRJob，MapPhase运行成功，但ReducePhase符合33%并挂起(挂起约1小时)状态:“reduce>sort”我如何调试它？最佳答案这可能与您的情况无关，但我在一个节点上错误配置IPTABLES(~firewall)时发生了这种情况。当该节点被分配一个reducer角色时，reduce阶段将卡在33%。检查错误日志以确保连接正常，特别是如果您最近添加了新节点和/或手动配置了它们。关于hadoop-如何调试挂起的hadoopmap-reduce作业，我们在Sta

hadoop - 在 Hadoop 中，有没有办法查看发送到 reducer 以执行正在运行的任务的键/值对？

对于我的一个hadoop作业，输入到我的reducer任务中的数据量极度不平衡。例如，如果我有10个reducer任务，其中9个的输入大小将在50KB范围内，最后一个将接近200GB。我怀疑我的映射器正在为单个键生成大量值，但我不知道该键是什么。这是一项遗留工作，我无法再访问源代码。有没有办法在作业运行时查看键/值对，无论是映射器的输出还是reducer的输入？最佳答案尝试将其添加到您的CLI作业运行中:-Dmapred.reduce.tasks=0这应该将reducer的数量设置为0，这实际上将使映射器将输出直接转储到HDFS

送到 reducer 射器 section hadoop mapreduce

hadoop - 如何在 hadoop/map reduce 中创建具有固定行数的输出文件？

假设我们有N个不同行数的输入文件。我们需要生成输出文件，这样每个输出文件恰好有K行(除了最后一个可以有是否可以使用单个MR作业来做到这一点？我们应该打开文件以在reducer中显式写入。输出中的记录应该被打乱。谢谢，参数化最佳答案假设输入文件有990条记录，必须将其分成9个文件，每个文件有100条记录，最后一个文件有90条记录。共10个文件使用NLineInputFormat并将mapred.line.input.format.linespermap设置为100。这样每个映射器将处理来自输入数据集的100行。将reducer的数

中创 hadoop section 射器 mapreduce

java - 在 HDP 2.0 上运行 hadoop map reduce java 程序时出错

我在java中运行以下mapreduce程序，它编译成功但在运行时获取我在EC2上使用HortonworksHDP2.0。packageedu.osu.cse.ysmart.TestQuery;importjava.io.IOException;importjava.util.*;importjava.text.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.util.Tool;importorg.a

时出 java mapreduce hadoop TestQuery dictionary reduce

java - Hadoop 中的 Map Reduce 流程

我正在使用HadoopinPractice一书学习Hadoop，在阅读第1章时，我看到了这个图表:来自Hadoop文档:(http://hadoop.apache.org/docs/current2/api/org/apache/hadoop/mapred/Reducer.html)1.随机播放ReducerisinputthegroupedoutputofaMapper.Inthephasetheframework,foreachReducer,fetchestherelevantpartitionoftheoutputofalltheMappers,viaHTTP.2.排序Thef

Hadoop Reduce the code section java mapreduce pseudocode

java - 如何在scala中编写hadoop map reduce程序

我正在编写map缩减应用程序Scala。直到map功能一切正常。但是在编写reducer时我遇到了问题。overridedefreduce(key:Text,values:java.lang.Iterable[Text],context:ReducerContext){}ReducerContext被定义为引用上下文内部类，所以我在这里没问题。问题出在Iterable(Java)组件上。我无法遍历它。我知道首先我将它转换成scalaIterable然后迭代它，我也这样做了但仍然没有得到结果。我已经尝试了scala.collection.JavaConverters._和JavaConv

何在编写 code values section java scala hadoop mapreduce

hadoop - map reduce 中的集成 SVM

我正在为MapReduce中的每个数据集制作SVM模型(为此我正在使用LibSVM库)。甚至，我有每个模型的测试结果。测试结果文件包含以下详细信息。(IT给出关于测试结果的预测)+1-1+1+1....+1我有这样的5个测试文件。现在我想在mapreduce中使用多数投票结合测试结果。在map阶段，我想将行号作为key的值。如何在映射阶段为所有测试文件提供行号作为值。最佳答案我不知道你是否需要MapReduce来完成这个任务，但如果你确实需要在MapReduce中完成它，我会只使用Map-only作业，甚至没有输出文件。仅使用两

hadoop reduce code section 行号 mapreduce classification svm libsvm

hadoop - 如何在 Hadoop 2 + YARN 中计算并发#mappers 和#reducers？

我搜索了一段时间，发现使用hadoop2+yarn的MapReduce集群每个节点具有以下数量的并发映射和减少:并发映射#=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb并发减少#=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb但是，我设置了一个包含10台机器的集群，配置如下:'yarn_site'=>{'yarn.nodemanager.resource.cpu-vcores'=>'32','yarn.nodemanager.resou

中计何在 39 section nodemanager hadoop hadoop-yarn hadoop2

hadoop - 为什么我的 map reduce 作业按顺序运行？

我有一个4节点集群和总共96GB内存。我已将我的输入分成100个文件，并将作业设置为有100个映射器。从日志来看，映射器似乎是按顺序运行的。[2014/10/0815:22:36]INFO:Totalinputpathstoprocess:100[2014/10/0815:22:36]INFO:numberofsplits:100[2014/10/0815:22:36]INFO:Startingtask:attempt_local1244628585_0001_m_000000_0[2014/10/0815:22:36]INFO:Submittingtokensforjob:job_l

hadoop reduce 1244628585 2014 INFO mapreduce

java - hadoop map reduce 程序未运行不受支持的 major.minor 版本

当我像那样运行我的MapReduce程序时:bin/hadoopjar/usr/local/hadoop/share/hadoop/mapreduce/mapreduceprog.jarproblemdata/problemdata/input2/problemdata/output5我得到以下输出:Exceptioninthread"main"java.lang.UnsupportedClassVersionError:mapreduceprog:Unsupportedmajor.minorversion52.0atjava.lang.ClassLoader.defineClass1

hadoop reduce java ClassLoader URLClassLoader mapreduce hdfs

131 132 133134135 136 137