草庐IT

reduce_dim

全部标签

amazon-s3 - 将单个 Hadoop map reduce 输出写入多个 S3 对象

我正在实现需要在多个S3对象中创建输出的HadoopMapreduce作业。Hadoop本身只创建一个输出文件(一个S3对象),但我需要将输出分成多个文件。我如何实现这一目标? 最佳答案 我通过使用S3工具包将我的reducer方法的输出直接写入S3来做到这一点。因为我在EC2上运行,所以这是快速且免费的。一般来说,您希望Hadoop尽可能多地处理您的输入和输出,以获得更清晰的映射器和缩减器;当然,您希望在管道的最后写入S3,让Hadoop的代码移动在HDFS上完成它的工作。无论如何,我建议进行所有数据分区,并在最终归约任务中将整个

hadoop - reduce任务输入不平衡如何处理?

最近有人问我如何处理reduce任务的输入不平衡。想了想,尝试重新分配数据,但没有想出好的解决办法。有什么建议吗? 最佳答案 实际上你有两种方法。增加reduce的数量,这样您的数据可能会更好地分布在任务中重写分区程序以更好地在任务上分配key。[1][1]http://hadoop.apache.org/common/docs/r0.20.2/api/org/apache/hadoop/mapreduce/Partitioner.html 关于hadoop-reduce任务输入不平衡如

hadoop - 有没有办法从 MR 作业中的 reduce 任务访问成功的 map 任务的数量?

在我的Hadoopreducers中,我需要知道在当前作业中执行了多少个成功的映射任务。我提出了以下建议,据我所知,这是行不通的。CountertotalMapsCounter=context.getCounter(JobInProgress.Counter.TOTAL_LAUNCHED_MAPS);CounterfailedMapsCounter=context.getCounter(JobInProgress.Counter.NUM_FAILED_MAPS);longnSuccessfulMaps=totalMapsCounter.getValue()-failedMapsCoun

Hadoop:生成序列文件的示例过程,其中包含要在 map/reduce 中处理的图像二进制文件

正在关注Hadoop:howtoaccess(many)photoimagestobeprocessedbymap/reduce?问题,哪里orangeoctopus提供了一个合理的方向来加载图像二进制文件并将它们收集到SequenceFiles中以提供给映射器。认为这对其他人也可能有用,作为本地java进程或在大量图像文件的情况下可能是hadoop作业,我创建了这个单独的问题来寻找实现示例。谢谢! 最佳答案 Hadoop:TheDefinitiveGuide-第4章有一些用于读取/写入序列文件的示例。这是code对于相同的。遍历代

hadoop - 为什么 reduce 停留在 16%?

我有一个mapreduce作业,我试图在一个相对较小的数据集上运行。我一直遇到reduce作业一直卡在16%的问题。我的任务跟踪器日志如下:2012-03-2117:09:23,829INFOorg.apache.hadoop.mapred.TaskTracker:attempt_201203211704_0001_r_000000_00.16666667%reduce>copy(1of2at0.16MB/s)2012-03-2117:09:26,865INFOorg.apache.hadoop.mapred.TaskTracker:attempt_201203211704_0001_

python - Hadoop 流在 map/reduce 操作中崩溃

我在单个节点上使用hadoop1.0.1,我正在尝试使用python2.7流式传输制表符分隔文件。我可以让MichaelNoll的字数统计脚本使用hadoop/python运行,但无法让这个非常简单的映射器和缩减器工作,它只是复制文件。这是映射器:importsysforlineinsys.stdin:line=line.strip()print'%s'%line这是reducer:importsysforlineinsys.stdin:line=line.strip()printline这是输入文件的一部分:1857774.0000002859164.0000003859350.00

hadoop - Reducer 因主机死机而卡住

我注意到我的reducer由于主机死机而卡住了。在日志上,它显示了很多重试消息。是否可以告诉作业跟踪器放弃死节点并恢复工作?有323个映射器,只有1个reducer。我在hadoop-1.0.3上。2012-08-0811:52:19,903INFOorg.apache.hadoop.mapred.ReduceTask:192.168.1.23Willbeconsideredafter:65seconds.2012-08-0811:53:19,905INFOorg.apache.hadoop.mapred.ReduceTask:attempt_201207191440_0203_r_0

hadoop - Hive 总是给出 "Number of reduce tasks determined at compile time: 1",无论我做什么

createexternaltableifnotexistsmy_table(customer_idSTRING,ip_idSTRING)location'ip_b_class';然后:hive>setmapred.reduce.tasks=50;hive>selectcount(distinctcustomer_id)frommy_table;TotalMapReducejobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1里面有160GB,1个reducer需要很长时间...[ihadanny@lv

hadoop mapreduce 作业不运行 reducer

我试图运行WordCount示例的变体,变体是,Mapper输出Text作为键和Text作为值,reducer输出Text作为键和NullWritable作为值。除了map,reducesignatures,我把主要的方法是这样的://startaconfConfigurationconf=newConfiguration();conf.set("str",str);//initializeajobbasedontheconfJobjob=newJob(conf,"wordcount");job.setJarByClass(org.myorg.WordCount.class);//th

hadoop - Map/Reduce 完成图

我是Hadoop和Map/reduceFramework的新手。在执行第一个程序时,字数统计问题,我陷入了跟踪器的工作细节。Map/Reduce完成图代表什么?或者通俗地说,x、y轴代表什么? 最佳答案 X是map/reduce任务的数量,Y是以百分比表示的完成度(条形表示单个任务)。 关于hadoop-Map/Reduce完成图,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/2