草庐IT

MapReduce2

全部标签

java - 运行 Hipi mapreduce 程序

我正在尝试运行HIPImapreduce示例(下载程序)。我已将hipijar添加到构建路径,但在执行时出现以下错误。我的命令看起来像,hadoopjarDownloader.jarDownloader./hipi/hipi.txt./hipi/output.hib1我的输入文件hipi.txt包含三个URL错误日志:>OutputHIB:./hipi/14/01/1202:39:08WARNmapred.JobClient:Use>GenericOptionsParserforparsingthearguments.Applicationsshould>implementToolfo

hadoop - 为什么 MapReduce 进度报告不是单调递增的?

我向Hadoop提交了一个MapReduce作业并在屏幕上观看进度报告。map任务和reduce任务的进度报告应该单调递增(例如0%、10%、25%、60%、78%、95%和100%)。但事实上,报告的进展并不是单调递增的:14/01/2111:05:37INFOmapred.JobClient:Runningjob:job_201401201555_003614/01/2111:05:38INFOmapred.JobClient:map0%reduce0%14/01/2111:06:07INFOmapred.JobClient:map11%reduce0%14/01/2111:06:

hadoop - 使用自定义输入格式时 MapReduce 性能降低

我在使用MapReduce时遇到问题。我不得不阅读多个CSV文件。1个CSV文件输出1行。我无法以自定义输入格式拆分CSV文件,因为CSV文件中的行格式不同。例如:第1行包含A、B、C第2行包含D、E、F我的输出值应该是A,B,D,F我有1100个CSV文件,因此创建了1100个拆分,因此创建了1100个映射器。映射器非常简单,处理起来不会花费太多时间。但是1100个输入文件需要大量时间来处理。任何人都可以指导我看什么,或者如果我在这种方法中做错了什么? 最佳答案 与处理大量小文件相比,Hadoop在处理少量大文件时表现更好。(这里

java - hadoop - 我们可以在完成 mapreduce 作业后检查状态多长时间?

我有3个mapreduce作业要并行执行,因此,我做了这样的事情Job[]job=newJob[3];...job[0].submit();job[1].submit();job[2].submit();因此,为了检查所有作业是否成功,我对这3个作业进行了一些轮询。booleanisAllFinished=false;while(!isAllFinished){for(inti=0;i>"+job[i].isComplete());isAllFinished=isAllFinished&job[i].isComplete();}Thread.sleep(1000);}虽然,这产生了积极

java - Hadoop/Mapreduce Reducer 不工作

我从GitHub下载了有关K-MEANS算法(在hadoop中)的信息。但是,这仅适用于映射器。(因为输出文件名为“part-m-00000”)我希望减少输出文件。我的HDFS命令:./bin/hadoopjarKmeans.jar主要输入输出plz..一些人帮助我!!!!这里是Main.classimportjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importo

java - 如何在 Mapreduce 程序中遍历 Text 值的迭代器两次?

在我的MapReduce程序中,我有一个reducer函数,它计算文本值迭代器中的项目数,然后对于迭代器中的每个项目,将项目输出为键,将计数输出为值。因此我需要使用迭代器两次。但是一旦迭代器到达终点,我就无法从第一个迭代器开始迭代。我该如何解决这个问题?我为我的reduce函数尝试了以下代码:publicstaticclassReduceAextendsMapReduceBaseimplementsReducer{publicvoidreduce(Textkey,Iteratorvalues,OutputCollectoroutput,Reporterreporter)throwsIO

apache - Mapreduce 和apache 的hama 之间的主要区别是什么?

您好,我发现很难将mapreduce与hama进行比较,我知道hama使用这种批量同步并行模型,并且工作节点可以相互通信,而在apache的hadoop中,工作节点只与名称节点通信,对吗?如果是这样,我不明白hama比hadoop中的标准mapreduce有什么好处,谢谢! 最佳答案 你能看一下这个PDFlink这就解释了MapReduce和BSP的区别(ApacheHama提供了BulkSynchronousParallel计算引擎)。 关于apache-Mapreduce和apach

hadoop - Pig local 与 mapreduce 模式性能比较

我已经使用Cloudera管理器CDH4设置了一个3节点Hadoop集群。当在mapreduce模式下运行Pig作业时,对于相同的数据集,它花费的时间是本地模式的两倍。这是预期的行为吗?另外,是否有任何文档可用于mapreduce作业的性能调整选项?非常感谢您的帮助! 最佳答案 这可能是因为您使用的是玩具数据集,并且mapreduce的开销大于并行化的好处 关于hadoop-Piglocal与mapreduce模式性能比较,我们在StackOverflow上找到一个类似的问题:

hadoop - java.io.IOException : invalid distance too far back in hadoop mapreduce 异常

我在我的一些mapreduce作业中遇到了这个奇怪的错误java.io.IOException:invaliddistancetoofarbackatorg.apache.hadoop.io.compress.zlib.ZlibDecompressor.inflateBytesDirect(NativeMethod)atorg.apache.hadoop.io.compress.zlib.ZlibDecompressor.decompress(ZlibDecompressor.java:221)atorg.apache.hadoop.io.compress.DecompressorSt

python - Hadoop MapReduce Streaming 输出与本地运行 MapReduce 的输出不同

我正在运行一个用python编写的简单mapreduce作业,我注意到当我在本地测试脚本时,我得到的结果与我在hadoop上运行该作业时不同。我的输入是这样的:key1val1key1val2key1val3key1val4key2val1key2val3key2val5key3val5key4val4我的映射器创建了一个值字典及其对应的键列表(字符串)(例如val1key1,key2;val2key1;val3key1,key2....)。然后对于字典中的每个值,我打印所有可能的key对。所以我的映射器的输出看起来像:key1_key21#obtainedfromval1key1_k