草庐IT

reducer-combiner

全部标签

hadoop - map reduce 中的集成 SVM

我正在为MapReduce中的每个数据集制作SVM模型(为此我正在使用LibSVM库)。甚至,我有每个模型的测试结果。测试结果文件包含以下详细信息。(IT给出关于测试结果的预测)+1-1+1+1....+1我有这样的5个测试文件。现在我想在mapreduce中使用多数投票结合测试结果。在map阶段,我想将行号作为key的值。如何在映射阶段为所有测试文件提供行号作为值。 最佳答案 我不知道你是否需要MapReduce来完成这个任务,但如果你确实需要在MapReduce中完成它,我会只使用Map-only作业,甚至没有输出文件。仅使用两

hadoop - 如何在 Hadoop 2 + YARN 中计算并发#mappers 和#reducers?

我搜索了一段时间,发现使用hadoop2+yarn的MapReduce集群每个节点具有以下数量的并发映射和减少:并发映射#=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb并发减少#=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb但是,我设置了一个包含10台机器的集群,配置如下:'yarn_site'=>{'yarn.nodemanager.resource.cpu-vcores'=>'32','yarn.nodemanager.resou

hadoop - 为什么我的 map reduce 作业按顺序运行?

我有一个4节点集群和总共96GB内存。我已将我的输入分成100个文件,并将作业设置为有100个映射器。从日志来看,映射器似乎是按顺序运行的。[2014/10/0815:22:36]INFO:Totalinputpathstoprocess:100[2014/10/0815:22:36]INFO:numberofsplits:100[2014/10/0815:22:36]INFO:Startingtask:attempt_local1244628585_0001_m_000000_0[2014/10/0815:22:36]INFO:Submittingtokensforjob:job_l

java - hadoop map reduce 程序未运行不受支持的 major.minor 版本

当我像那样运行我的MapReduce程序时:bin/hadoopjar/usr/local/hadoop/share/hadoop/mapreduce/mapreduceprog.jarproblemdata/problemdata/input2/problemdata/output5我得到以下输出:Exceptioninthread"main"java.lang.UnsupportedClassVersionError:mapreduceprog:Unsupportedmajor.minorversion52.0atjava.lang.ClassLoader.defineClass1

hadoop - map-reduce 中不同组件/ Action 的执行顺序

map-reduce中Action/组件的执行顺序是什么-Mapper-->Combiner-->Shuffling/Sorting-->Partitioner-->Reducer顺序一样吗?​​? 最佳答案 这个过程几乎是正确的,但让我们深入了解它。第一个Map阶段将从运行map开始。一旦map处理了输入,它会在保存到本地文件系统之前进行排序,这被称为sort然后copy到本地文件系统,接下来这个数据将被复制到reducer这是shuffle阶段。由于数据已经在每个mapper输出中排序,它根据每个到达reducer所在节点的键执

java - 何时在 Hadoop Map-Reduce 中使用 NLineInputFormat?

我有一个基于文本的输入文件,大小约为25GB。在该文件中,一条记录由4行组成。每条记录的处理都是相同的。但是在每条记录中,四行中的每一行都以不同的方式处理。我是Hadoop的新手,所以我想要一个指导,在这种情况下是使用NLineInputFormat还是使用默认的TextInputFormat?提前致谢! 最佳答案 假设您有以下格式的文本文件:2015-8-02error2014blahblahblahblah2015-8-02blahblahbalherror2014你可以使用NLineInputFormat.使用NLineInp

hadoop - 让多个 reducer 在 HDFS 中创建多个输出文件

如果我有多个reducer,输出会保存为多个文件吗?如果我有job.setNumReduceTasks(4),输出会写入4个不同的文件吗? 最佳答案 在map-reduce作业中,如果设置4个reducer来实现reducer作业。通过这样做,最终输出将生成4个部分文件。像part-r-00001、part-r-00002、part-r-00003、part-r-00004.希望这能澄清您的疑虑。 关于hadoop-让多个reducer在HDFS中创建多个输出文件,我们在StackOve

hadoop - 为整个 Mapper/Reducer 定义一个可写的

我在某处读到如果我们在创建Mapper/Reducer时定义输出可写项可能会提高性能,并且在Mapper/Reducer中我们应该只设置可写项的值而不是为每个输出记录创建可写项。例如(伪代码):IntWritableidWritable=newIntWritable();map(){idWritable.setValue(outputValue);emit(idWritable);}比以下更优化:map(){IntWritableidWritable=newIntWritable(outputValue);emit(idWritable);}这是真的吗?在创建将用于所有输出记录的Map

java - MapReduce reducer 错误输出

我有一个包含以下输入的大型TSV文件:Site1Tag1Site1Tag34Site1Tag8Site2Tag75Site2Tag54Site2Tag8Site3Tag24Site3Tag34Site3Tag1...我想在hadoopMapReduce的帮助下找到输入中所有站点之间的相似站点对以及每对站点中相似标签的数量。呈现部分输入的输出:Site1Site21//Site1issimilartoSite2with1tag(Tag8)Site1Site32//Site1issimilartoSite3with2tag(Tag1andTag34)Site2Site11Site3Site

hadoop - Mapreduce 中可以用combiner 代替reduce 吗?

我们可以在Mapreduce作业中使用combiner代替reduce吗?如果没有,我们可以用什么来代替mapreduce作业中的reducer? 最佳答案 严格来说,不是。组合器只有在至少有一个reducer被调用时才会被调用。当没有reducer时,作业停止在map阶段,省略了对map任务输出的本地排序。组合器也需要这种排序(它们实际上是本地reducer)。所以,没有reducer=>没有组合器。但是,如果您使用映射器内聚合,有时可以模拟组合器的操作。例如,您可以将来自映射器的wordcount结果存储在本地数据结构中,在每个