草庐IT

reduce_dim

全部标签

hadoop - 为什么运行 1TB teragen 时没有 reducer ?

我正在使用以下命令为hadoop运行terasort基准测试:jar/Users/karan.verma/Documents/backups/h/hadoop-2.6.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jarteragen-Dmapreduce.job.maps=1001trandom-data并为100个maptask打印了以下日志:18/03/2713:06:03WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform..

hadoop - 如何更改 hadoop mr 作业中的 reducer 输出文件名?

我有一个reducer脚本需要生成一堆xml文件。我想使用reducer键以编程方式设置文件名。我正在使用MultipleOutputs来完成如下操作。MultipleOutputsmos=newMultipleOutputs(context);mos.write(newText(key),newText(output),key+".xml");但输出文件名类似于key.xml-r-00000。如何从文件名中删除-r-*部分,以便它只是key.xml? 最佳答案 这里的-r-0000表示它是从reducer生成的。我们不能更改它,如

hadoop - Hadoop 集群上的 Hive/Map-Reduce 作业 : How to (roughly) calculate the diskspace needed?

以下用例:我对.gz压缩大小约为500GB的数据运行配置单元查询:selectcount(distinctc1),c2fromt1groupbyc2;此查询产生约2800个映射作业和约400个缩减作业。在设置具有20个实例(每个160GB实例存储)的Hadoop集群时,该工作将停止在97%map和21%reduceprogress,然后回落到94%map和19%reduceprogress,然后就没有任何进展了。我认为这是因为HDFS的磁盘空间已达到使用限制。也许我可以在当天晚些时候提供异常消息。如何:有没有办法根据正在处理的数据的输入大小粗略地预先计算所需的HDFS磁盘空间?请记住,

hadoop - mapreduce 程序 : Reducer is not getting called

我知道在这里问这个问题是非常愚蠢的。可能是我的眼睛不好或什么的。我无法理解为什么我的reducer没有被调用,即使我已经在驱动程序类中配置了它。请帮助我确定我错过了什么的确切位置。我的司机类(class)publicclassDPDriver{publicstaticvoidmain(String[]args)throwsIOException,InterruptedException,ClassNotFoundException{Configurationconfig=newConfiguration();config.set("mapred.textoutputformat.sep

hadoop - 了解 Map-Reduce

所以这一直让我很困惑。我不确定map-reduce究竟是如何工作的,而且我似乎迷失在确切的事件链中。我的理解:MasterChunks文件并将它们作为(K1,V1)交给映射器Mappers将获取文件并执行Map(K1,V1)->(K2,V2)并将此数据输出到单独的文件中。这就是我迷路的地方。那么这些单独的文件是如何合并的呢?如果每个文件中的key重复怎么办?谁在进行合并?是主人吗?如果这一步所有的文件都进入Master,会不会是一个巨大的瓶颈?是否全部合并到一个文件中?现在文件重新分块并交给reducer了吗?或者,如果所有文件都直接转至reducer,那么在流程结束时(K3,V3)文

hadoop - 如何修改Map-Reduce的执行顺序?

原来的Map-Reduce执行链是:InputSplits-->Mapper-->[Sorting/Shuffling等]-->Reducer-->...现在我不希望输入拆分先到达映射器,而是转到其他一些新阶段(例如,我们可以将其称为预映射器,此类将由我自己创建)。所以新顺序将是:InputSplits->Pre-Mapper->Mapper->...我目前正在阅读源代码。但是,我仍然找不到任何线索(我应该接触哪些类(class))。欢迎任何建议。非常感谢:) 最佳答案 也许你应该看看链接映射器:ChainMapper

java - 什么决定了 reducer 的数量以及如何避免 reducer 的瓶颈?

假设我有一个包含此类信息的大tsv文件:2012-09-2200:00:01.024934225834688102447268866000bo2012-09-2200:00:02.02493422609347461151344951004ot2012-09-2200:00:02.0249342261098336257346095334100ot2012-09-2200:05:02.0249342261500977152254785340010ot我想实现一个MapReduce作业,枚举五分钟的时间间隔并过滤tsv输入的一些信息。输出文件如下所示:047268866bo0134495ot

hadoop - map任务和reduce任务可以在同一个节点吗?

我是Hadoop新手,既然map节点和reduce节点之间的数据传递可能会降低MapReduce的效率,为什么不把maptask和reducetask放在同一个节点? 最佳答案 实际上,如果数据太“小”,您可以在同一个JVM中运行map和reduce。这在Hadoop2.0(又名YARN)和现在称为Ubertask中是可能的。来自伟大的“Hadoop:权威指南”一书:Ifthejobissmall,theapplicationmastermaychoosetorunthetasksinthesameJVMasitself.Thish

java - hadoop NaturalKeyGroupingComparator - Reducer 中发生了什么?

我目前正在从事一个JavaEMR项目,我的key由2个文本组成。我在其中一个步骤中设置了NaturalKeyGroupingComparator以仅比较键的左侧部分。现在这是Reducer的Java代码:publicvoidreduce(Pairkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{inttotalOccurrences=0;for(Datavalue:values){if(key.getRight().toString().equals("*")){totalOccurrenc

python - 无法在 Hadoop 中使用 python 运行 map reduce?

我在python中为字数统计程序编写了映射器和缩减器,效果很好。这是一个示例:echo"hellohelloworldherehellohereworldherehello"|wordmapper.py|sort-k1,1|wordreducer.pyhello4here3world2现在,当我尝试提交一个大文件的hadoop作业时,出现错误hadoopjarshare/hadoop/tools/sources/hadoop-*streaming*.jar-filewordmapper.py-mapperwordmapper.py-filewordreducer.py-reducerw