mapReduce

hadoop - 仅当所有映射器完成时才减少工作？

美好的一天...我有一点困惑;reducetask和减少工作有什么区别？这是我的情况；我读到在所有映射完成之前reduce不会开始......但在hadoop输出中我看到的不是这样:12/02/1110:58:50INFOmapred.JobClient:map60%reduce16%12/02/1110:58:54INFOmapred.JobClient:map60%reduce20%12/02/1110:58:55INFOmapred.JobClient:map65%reduce20%减少了16%而map仍然是60%...这里到底发生了什么？最佳答案

.net - 在 .NET 中使用 Thrift 在 Hbase 上进行 MapReduce？

我可以使用HadoopStreaming在.NET中使用thrift在HBase上运行MapReduce作业吗？或者是否有任何其他方法可以从.NET在HBase上运行MapReduce作业？最佳答案您还可以使用RESTAPI(stargate)。然而，thrift或stargate服务器都不是运行MapReduce作业的好方法。两者都需要一个单独的守护进程，这将成为一个单一的争论点，并且不会提供数据局部性。Javamapreduceapi识别输入拆分的数据局部区域。所以关键是将javaapi与.Net一起使用。Thisquest

上进 MapReduce section noreferrer .net hadoop hbase thrift

java - 线程 "main"java.lang.VerifyError : Bad type on operand stack 中的异常

此错误已发生在map-reduce程序中，用于在给定的input.txt文件中查找最高温度。我写了两列，分别是年份和温度。Exceptioninthread"main"java.lang.VerifyError:BadtypeonoperandstackExceptionDetails:Location:org/apache/hadoop/mapred/JobTrackerInstrumentation.create(Lorg/apache/hadoop/mapred/JobTracker;Lorg/apache/hadoop/mapred/JobConf;)Lorg/apache/h

java VerifyError apache hadoop mapreduce

Hadoop 作业已接受但未运行 Hadoop2.4.1

我有一个Hadoop2.4.1的分布式集群。当我运行示例作业时，它处于接受状态但未运行。下面是理想的命令提示符。/usr/local/hadoop/share/hadoop/mapreduce$hadoopjarhadoop-mapreduce-examples-2.4.1.jarpi32NumberofMaps=3SamplesperMap=214/08/1214:21:18WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswherea

Hadoop 业已 section mapreduce 14 hadoop2

hadoop - 如何在 impala 中启用递归读取

我需要从Imapala查询小时mapreduce批处理结果outputdirectorystructurewillbe/data/access/web1/2015/Jan/day1/09/part-r-00000/data/access/web1/2015/Jan/day1/09/part-r-00001.../data/access/web1/2015/Jan/day1/20/part-r-00000/data/access/web1/2015/Jan/day1/20/part-r-00001.../data/access/web1/2015/Jan/day2/01/part-r-0

何在 hadoop data 子目 input dictionary mapreduce impala

java - 使用 Hadoop 的机器学习框架

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion除了Mahout之外，还有哪些其他框架可以在JAVA中实现机器学习算法，以便底层框架采用JAVA代码并在Hadoop上运行它？我正在寻找Mahout的替代方案，因为我需要SVM和Hadoop上的凝聚集群实现，而Mahout仅支持SVM。

Hadoop java section class notice mapreduce machine-learning mahout

Hadoop 较小的输入文件

我正在以一种稍微不同的方式使用hadoop。就我而言，输入大小非常小。但是，计算时间更多。我有一些复杂的算法，我将在每一行输入上运行。因此，即使输入大小小于5mb，整体计算时间也超过10小时。所以我在这里使用hadoop。我正在使用NLineInputFormat按行数而不是block大小拆分文件。在我最初的测试中，我有大约1500行(拆分为200行)，与在一台机器上串行运行相比，我发现在四节点集群中只提高了1.5倍。我正在使用虚拟机。这可能是问题所在，还是对于较小的输入，hadoop不会带来太多好处？任何见解都会非常有帮助。最佳答案

Hadoop 小的 section 射器 mapreduce

performance - 用于优化 Hadoop 应用程序可伸缩性的工具？

我正在与我的一个团队合作开发一个小型应用程序，该应用程序需要大量输入(一天的日志文件)并在几个(现在是4个，将来可能是10个)map-reduce步骤(Hadoop&Java).现在我已经完成了这个应用程序的部分POC，并在4个旧桌面(我的Hadoop测试集群)上运行它。我注意到的是，如果您进行“错误”的分区，则水平缩放特性会被破坏得面目全非。我发现比较单个节点(比如20分钟)和所有4个节点上的测试运行只会导致50%的加速(大约10分钟)，而我预计会有75%(或至少>70%)的加速(大约5或6分钟)。使map-reduce水平缩放的一般原则是确保分区尽可能独立。我发现在我的例子中，我对

可伸缩性 performance section 的 Hadoop mapreduce partitioning horizontal-scaling

java - 为什么 DistributedCache 会破坏我的文件名

我有一个奇怪的问题，DistributedCache似乎更改了我的文件的名称，它使用原始名称作为父文件夹并将文件添加为子文件夹。即文件夹\文件名.ext变成文件夹\文件名.ext\文件名.ext任何想法，我的代码如下。谢谢阿金塔约StringparamsLocation="/user/fwang/settings/ecgparams.txt";DistributedCache.addCacheFile(newURI(paramsLocation),firstStageConf);Path[]paths=DistributedCache.getLocalCacheFiles(job);f

DistributedCache 破坏 section code java path uri hadoop mapreduce

Hadoop wordcount 无法运行 - 需要帮助解码 hadoop 错误消息

我需要一些帮助来弄清楚我的工作失败的原因。我建了一个节点集群只是为了尝试一下。我按照示例here.一切似乎都在正常工作。我格式化了namenode，并且能够通过web界面连接到jobtracker、datanode和namenode。我能够启动和停止所有hadoop服务。但是，当我尝试运行wordcount示例时，我得到了这个:Errorinitializingattempt_201105161023_0002_m_000011_0:java.io.IOException:Exceptionreadingfile:/app/hadoop/tmp/mapred/local/ttpriva

wordcount Hadoop apache java mapreduce word-count

84 85 868788 89 90