草庐IT

reduce_dim

全部标签

java - Hadoop 中的 Map Reduce 流程

我正在使用HadoopinPractice一书学习Hadoop,在阅读第1章时,我看到了这个图表:来自Hadoop文档:(http://hadoop.apache.org/docs/current2/api/org/apache/hadoop/mapred/Reducer.html)1.随机播放ReducerisinputthegroupedoutputofaMapper.Inthephasetheframework,foreachReducer,fetchestherelevantpartitionoftheoutputofalltheMappers,viaHTTP.2.排序Thef

java - 如何在scala中编写hadoop map reduce程序

我正在编写map缩减应用程序Scala。直到map功能一切正常。但是在编写reducer时我遇到了问题。overridedefreduce(key:Text,values:java.lang.Iterable[Text],context:ReducerContext){}ReducerContext被定义为引用上下文内部类,所以我在这里没问题。问题出在Iterable(Java)组件上。我无法遍历它。我知道首先我将它转换成scalaIterable然后迭代它,我也这样做了但仍然没有得到结果。我已经尝试了scala.collection.JavaConverters._和JavaConv

hadoop - map reduce 中的集成 SVM

我正在为MapReduce中的每个数据集制作SVM模型(为此我正在使用LibSVM库)。甚至,我有每个模型的测试结果。测试结果文件包含以下详细信息。(IT给出关于测试结果的预测)+1-1+1+1....+1我有这样的5个测试文件。现在我想在mapreduce中使用多数投票结合测试结果。在map阶段,我想将行号作为key的值。如何在映射阶段为所有测试文件提供行号作为值。 最佳答案 我不知道你是否需要MapReduce来完成这个任务,但如果你确实需要在MapReduce中完成它,我会只使用Map-only作业,甚至没有输出文件。仅使用两

hadoop - 如何在 Hadoop 2 + YARN 中计算并发#mappers 和#reducers?

我搜索了一段时间,发现使用hadoop2+yarn的MapReduce集群每个节点具有以下数量的并发映射和减少:并发映射#=yarn.nodemanager.resource.memory-mb/mapreduce.map.memory.mb并发减少#=yarn.nodemanager.resource.memory-mb/mapreduce.reduce.memory.mb但是,我设置了一个包含10台机器的集群,配置如下:'yarn_site'=>{'yarn.nodemanager.resource.cpu-vcores'=>'32','yarn.nodemanager.resou

hadoop - 为什么我的 map reduce 作业按顺序运行?

我有一个4节点集群和总共96GB内存。我已将我的输入分成100个文件,并将作业设置为有100个映射器。从日志来看,映射器似乎是按顺序运行的。[2014/10/0815:22:36]INFO:Totalinputpathstoprocess:100[2014/10/0815:22:36]INFO:numberofsplits:100[2014/10/0815:22:36]INFO:Startingtask:attempt_local1244628585_0001_m_000000_0[2014/10/0815:22:36]INFO:Submittingtokensforjob:job_l

java - hadoop map reduce 程序未运行不受支持的 major.minor 版本

当我像那样运行我的MapReduce程序时:bin/hadoopjar/usr/local/hadoop/share/hadoop/mapreduce/mapreduceprog.jarproblemdata/problemdata/input2/problemdata/output5我得到以下输出:Exceptioninthread"main"java.lang.UnsupportedClassVersionError:mapreduceprog:Unsupportedmajor.minorversion52.0atjava.lang.ClassLoader.defineClass1

hadoop - map-reduce 中不同组件/ Action 的执行顺序

map-reduce中Action/组件的执行顺序是什么-Mapper-->Combiner-->Shuffling/Sorting-->Partitioner-->Reducer顺序一样吗?​​? 最佳答案 这个过程几乎是正确的,但让我们深入了解它。第一个Map阶段将从运行map开始。一旦map处理了输入,它会在保存到本地文件系统之前进行排序,这被称为sort然后copy到本地文件系统,接下来这个数据将被复制到reducer这是shuffle阶段。由于数据已经在每个mapper输出中排序,它根据每个到达reducer所在节点的键执

java - 何时在 Hadoop Map-Reduce 中使用 NLineInputFormat?

我有一个基于文本的输入文件,大小约为25GB。在该文件中,一条记录由4行组成。每条记录的处理都是相同的。但是在每条记录中,四行中的每一行都以不同的方式处理。我是Hadoop的新手,所以我想要一个指导,在这种情况下是使用NLineInputFormat还是使用默认的TextInputFormat?提前致谢! 最佳答案 假设您有以下格式的文本文件:2015-8-02error2014blahblahblahblah2015-8-02blahblahbalherror2014你可以使用NLineInputFormat.使用NLineInp

hadoop - 让多个 reducer 在 HDFS 中创建多个输出文件

如果我有多个reducer,输出会保存为多个文件吗?如果我有job.setNumReduceTasks(4),输出会写入4个不同的文件吗? 最佳答案 在map-reduce作业中,如果设置4个reducer来实现reducer作业。通过这样做,最终输出将生成4个部分文件。像part-r-00001、part-r-00002、part-r-00003、part-r-00004.希望这能澄清您的疑虑。 关于hadoop-让多个reducer在HDFS中创建多个输出文件,我们在StackOve

hadoop - 为整个 Mapper/Reducer 定义一个可写的

我在某处读到如果我们在创建Mapper/Reducer时定义输出可写项可能会提高性能,并且在Mapper/Reducer中我们应该只设置可写项的值而不是为每个输出记录创建可写项。例如(伪代码):IntWritableidWritable=newIntWritable();map(){idWritable.setValue(outputValue);emit(idWritable);}比以下更优化:map(){IntWritableidWritable=newIntWritable(outputValue);emit(idWritable);}这是真的吗?在创建将用于所有输出记录的Map