草庐IT

mapReduce

全部标签

hadoop - 仅当所有映射器完成时才减少工作?

美好的一天...我有一点困惑;reducetask和减少工作有什么区别?这是我的情况;我读到在所有映射完成之前reduce不会开始......但在hadoop输出中我看到的不是这样:12/02/1110:58:50INFOmapred.JobClient:map60%reduce16%12/02/1110:58:54INFOmapred.JobClient:map60%reduce20%12/02/1110:58:55INFOmapred.JobClient:map65%reduce20%减少了16%而map仍然是60%...这里到底发生了什么? 最佳答案

.net - 在 .NET 中使用 Thrift 在 Hbase 上进行 MapReduce?

我可以使用HadoopStreaming在.NET中使用thrift在HBase上运行MapReduce作业吗?或者是否有任何其他方法可以从.NET在HBase上运行MapReduce作业? 最佳答案 您还可以使用RESTAPI(stargate)。然而,thrift或stargate服务器都不是运行MapReduce作业的好方法。两者都需要一个单独的守护进程,这将成为一个单一的争论点,并且不会提供数据局部性。Javamapreduceapi识别输入拆分的数据局部区域。所以关键是将javaapi与.Net一起使用。Thisquest

java - 线程 "main"java.lang.VerifyError : Bad type on operand stack 中的异常

此错误已发生在map-reduce程序中,用于在给定的input.txt文件中查找最高温度。我写了两列,分别是年份和温度。Exceptioninthread"main"java.lang.VerifyError:BadtypeonoperandstackExceptionDetails:Location:org/apache/hadoop/mapred/JobTrackerInstrumentation.create(Lorg/apache/hadoop/mapred/JobTracker;Lorg/apache/hadoop/mapred/JobConf;)Lorg/apache/h

Hadoop 作业已接受但未运行 Hadoop2.4.1

我有一个Hadoop2.4.1的分布式集群。当我运行示例作业时,它处于接受状态但未运行。下面是理想的命令提示符。/usr/local/hadoop/share/hadoop/mapreduce$hadoopjarhadoop-mapreduce-examples-2.4.1.jarpi32NumberofMaps=3SamplesperMap=214/08/1214:21:18WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswherea

hadoop - 如何在 impala 中启用递归读取

我需要从Imapala查询小时mapreduce批处理结果outputdirectorystructurewillbe/data/access/web1/2015/Jan/day1/09/part-r-00000/data/access/web1/2015/Jan/day1/09/part-r-00001.../data/access/web1/2015/Jan/day1/20/part-r-00000/data/access/web1/2015/Jan/day1/20/part-r-00001.../data/access/web1/2015/Jan/day2/01/part-r-0

java - 使用 Hadoop 的机器学习框架

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的,因为它们往往会吸引自以为是的答案和垃圾邮件。相反,describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion除了Mahout之外,还有哪些其他框架可以在JAVA中实现机器学习算法,以便底层框架采用JAVA代码并在Hadoop上运行它?我正在寻找Mahout的替代方案,因为我需要SVM和Hadoop上的凝聚集群实现,而Mahout仅支持SVM。

Hadoop 较小的输入文件

我正在以一种稍微不同的方式使用hadoop。就我而言,输入大小非常小。但是,计算时间更多。我有一些复杂的算法,我将在每一行输入上运行。因此,即使输入大小小于5mb,整体计算时间也超过10小时。所以我在这里使用hadoop。我正在使用NLineInputFormat按行数而不是block大小拆分文件。在我最初的测试中,我有大约1500行(拆分为200行),与在一台机器上串行运行相比,我发现在四节点集群中只提高了1.5倍。我正在使用虚拟机。这可能是问题所在,还是对于较小的输入,hadoop不会带来太多好处?任何见解都会非常有帮助。 最佳答案

performance - 用于优化 Hadoop 应用程序可伸缩性的工具?

我正在与我的一个团队合作开发一个小型应用程序,该应用程序需要大量输入(一天的日志文件)并在几个(现在是4个,将来可能是10个)map-reduce步骤(Hadoop&Java).现在我已经完成了这个应用程序的部分POC,并在4个旧桌面(我的Hadoop测试集群)上运行它。我注意到的是,如果您进行“错误”的分区,则水平缩放特性会被破坏得面目全非。我发现比较单个节点(比如20分钟)和所有4个节点上的测试运行只会导致50%的加速(大约10分钟),而我预计会有75%(或至少>70%)的加速(大约5或6分钟)。使map-reduce水平缩放的一般原则是确保分区尽可能独立。我发现在我的例子中,我对

java - 为什么 DistributedCache 会破坏我的文件名

我有一个奇怪的问题,DistributedCache似乎更改了我的文件的名称,它使用原始名称作为父文件夹并将文件添加为子文件夹。即文件夹\文件名.ext变成文件夹\文件名.ext\文件名.ext任何想法,我的代码如下。谢谢阿金塔约StringparamsLocation="/user/fwang/settings/ecgparams.txt";DistributedCache.addCacheFile(newURI(paramsLocation),firstStageConf);Path[]paths=DistributedCache.getLocalCacheFiles(job);f

Hadoop wordcount 无法运行 - 需要帮助解码 hadoop 错误消息

我需要一些帮助来弄清楚我的工作失败的原因。我建了一个节点集群只是为了尝试一下。我按照示例here.一切似乎都在正常工作。我格式化了namenode,并且能够通过web界面连接到jobtracker、datanode和namenode。我能够启动和停止所有hadoop服务。但是,当我尝试运行wordcount示例时,我得到了这个:Errorinitializingattempt_201105161023_0002_m_000011_0:java.io.IOException:Exceptionreadingfile:/app/hadoop/tmp/mapred/local/ttpriva