草庐IT

mapreduce_shuffle

全部标签

java - Mapreduce Hbase 文件未找到异常

我正在尝试使用mapreduce将数据填充到Hbase,但它一次又一次地抛出以下异常:-15/04/2921:35:37WARNmapreduce.JobSubmitter:Hadoopcommand-lineoptionparsingnotperformed.ImplementtheToolinterfaceandexecuteyourapplicationwithToolRunnertoremedythis.15/04/2921:35:38INFOmapreduce.JobSubmitter:Cleaningupthestagingareafile:/home/hduser/had

java - MapReduce - reducer 在一行中发出输出

我有一个简单的MapReduce作业,它应该从文本文件中读取字典,然后它们逐行处理另一个巨大的文件并计算逆向文档矩阵。输出应该是这样的:word-id1docX:tfXdocY:tfYword-id2docX:tfXdocY:tfYetc...但是,reducer的输出仅在一个huuuge行中发出。我不明白为什么它应该为每个word-id(这是reducer的关键)发出一个新行。映射器生成正确的输出(一对word-id和doc-id:tf的值在不同的行上)。我在没有reducer的情况下进行了测试。reducer应该只是将对应于同一键的值附加到一行中的每个键。能否请您看一下我的代码(特

hadoop - "merge"在 MapReduce 中是什么意思?

当我查看我的Hadoop屏幕时,我看到如下统计信息AverageMapTime5mins,56secAverageShuffleTime6mins,27secAverageMergeTime4mins,25secAverageReduceTime3mins,51sec据我了解,MapReduce的工作原理类似于映射步骤:使用“映射器”机器对每一行输入应用一些转换,为每一行输出一个键值对。Shuffle步骤:获取这些键值对,并将具有相同键的对组合在一起,将具有相同键的对分配给同一台“reducer”机器。减少步骤:对具有相同键的所有对应用“减少”转换,为每个组生成一个结果。所以我想我知道

java - 将 Mapreduce1 项目迁移到 YARN 指南

我有一个基于MapReduce1的大型Java项目,我想将它迁移到YARN。这里有人知道如何操作的好指南吗?谢谢。 最佳答案 我负责生产Hadoop集群的升级以及应用程序。我们遵循的流程是:我们根据支持YARN的所需hadoop分布构建了一个小型集群。我们在新集群中测试了整个代码,如Map/Reduce程序、Pig程序hive脚本、sqoop脚本等,并对代码进行了必要的更改。通常没有太多的代码端更改。只需要验证支持的功能、方法等。验证了旧输出的输出,如果您的输出与旧输出匹配,那么您的代码就可以运行了。如果不匹配,那么您需要修复代码。

java - mapreduce 中 map 任务中的 NullPointer 异常

我正在运行一个只提取英文推文的程序。但是在map任务完成后,reduce即将开始,它抛出一个空指针异常,我不明白为什么。它在一个输入集上工作正常,但在另一个输入集上却不行。映射器任务:publicvoidmap(ObjectKey,Textvalue,Contextcontext)throwsIOException,InterruptedException{Stringlang=null;Stringeng="en";try{twitter4j.Statuss=DataObjectFactory.createStatus(value.toString());Useruser=s.get

hadoop - 学习 MapReduce 的最佳方式

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion我熟悉并使用过Hive、Pig、HBase。我还阅读了Hadoop权威指南。我熟悉核心java、MapReduce架构和MapReduce内部结构。但是,我没有任何MapReduce的动手经验,需要结合实际场景来学习MapReduce。有什么书或链接可以推荐吗?我将不胜感激任何帮助或建议。谢谢!!

hadoop - 溢出在 MapReduce 中失败

当运行包括mapper、combiner和reducer的MapReduce程序时,终端显示Spilledfailed错误,但是当我单独运行带有mapper的程序时,它没有任何溢出。15/09/0213:56:27信息mapred.JobClient:TaskIdattempt_201508260430_0030_m_000001_0,状态:失败java.io.IOException:在org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1007)atorg.apache.hadoop.mapred

java - 如何在 mapreduce 作业中处理不同的输入批量大小

问题-我正在运行一系列包装在oozie工作流中的mapreduce作业。输入数据由一堆文本文件组成,其中大部分都相当小(KB),但我时不时地收到超过1-2MB的文件,这会导致我的作业失败。我看到作业失败的两个原因-一个,在一个或两个mr作业中,文件被解析为内存中的图形,对于更大的文件,其mr内存不足,两个,作业超时。问题-1)我相信我可以通过将mapreduce.task.timeout设置为0来禁用超时。但是我找不到任何提到这样做有任何风险的文档。2)对于OOM错误,我可以使用哪些不同的配置?此处有关潜在解决方案和风险的任何链接都会非常有帮助。3)在我最终得到OOM之前,我看到了很多

hadoop - MapReduce:将 Reducer 的结果分组为固定大小的 block

我正在使用MapReduce框架。假设这是输入列表[A,B,C,D,E,F,G,H,I,J,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y,Z]我的Mapper产生以下输出:现在Reducer的输出通常是这样的:但是我想做的是这样的:我想将每个键的输出组合成3个block,然后生成最终的Reducer输出。所以我希望我的Reducer输出看起来像这样:任何帮助将不胜感激,因为两天以来我一直被困在这个问题上。我无法弄清楚最后一部分,即如何将输出分组为3个block。P.S.如果block大小小于3(就像在最后一个键的示例中一样)那么它很好,但不应超过3。

hadoop - MapReduce 中映射器和缩减器任务的数量

如果我将reduce任务的数量设置为类似100并且当我运行该作业时,假设reduce任务数量超过(根据我的理解,reduce任务的数量取决于关键-我们从映射器获得的值。假设我将(1,abc)和(2,bcd)设置为映射器中的键值,reduce任务的数量将为2)MapReduce将如何处理它? 最佳答案 aspermyunderstandingthenumberofreducetasksdependsonthekey-valuewegetfromthemapper你的理解好像是错误的。reduce任务的数量不依赖于我们从mapper得到