elastic-mapreduce-cli

hadoop - 使用 Mapreduce 计算期望最大化的高斯混合模型

在哪里可以找到使用EM计算GMM的Mapreduce实现(或教程)？还有，用mapreduce框架真的可行吗？我找到了这个讲座link但它不包含详细描述，如果我的数据(均值和方差)很大，那么我如何将它从映射器传递到缩减器？最佳答案 OK，你说的，你有实现EM算法的经验。这很容易解释。EM算法如您所知，EM算法是一种寻找最大似然的迭代方法。一次迭代由两个步骤组成，即期望(E-step)和最大化步骤(M-step)。在E-step中，样本的可能性是根据之前的模型计算的。令n为样本数，我们可以获得n可能性。这里，似然计算是独立进行的。所

最大化 Mapreduce code li section hadoop machine-learning mixture-model expectation-maximization

java - Hadoop Mapreduce 作业卡在 map 上 100% 减少 51%

所以，我正在某处寻找一个无限循环，我不知道是否还有其他原因会导致这种情况。我正在使用四个集群节点，所以我很确定不会缺少RAM，正如其他同类问题中所建议的那样。我的代码:packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*;importorg.apache.hadoop

Mapreduce Hadoop Text code import java

java - mapreduce.TextInputFormat hadoop

我是一个hadoop初学者。我遇到了this自定义RecordReader程序，一次读取3行并输出3行输入被提供给映射器的次数。我能够理解为什么要使用RecordReader，但是当输入格式类本质上是扩展mapreduce.TextInputFormat类时，我无法理解每个InputSplit如何包含3行。根据我的理解，TextInputFormat类为每行(每个\n)发出1个InputSplit。那么RecordReader如何从每个InputSplit中读取3行呢？请有人解释这是怎么可能的。提前致谢! 最佳答案您需要了解Tex

TextInputFormat mapreduce code RecordReader java hadoop

hadoop - 从本地目录到 HDFS 的副本是否运行 mapreduce 作业？

当我们发出hdfsput或copyfromlocal命令时，它会调用mapreduce作业吗？如果是，运行了多少映射器？如果没有，转移是如何完成的？我阅读了Hadoop权威指南中的文件读取剖析，但想获得更多关于此的见解。最佳答案当我们使用put和copyFromLocal命令时，将本地文件复制到HDFS是使用mapreduce作业完成的。它实际上是由hadoop客户端二进制本身使用客户端库和队列使用Streaming完成的。在将内容复制到HDFS时，hadoop/hdfs二进制命令使用DistributedFileSystem类

mapreduce hadoop code section strong

hadoop - HDP 2.3 沙箱 mapreduce 日志

我的mapreduce程序中有System.out.printlns；MR运行成功，但我无法在任何地方看到日志。我尝试使用"yarnlog-applicationId..."，但我仍然看不到我的日志。启用日志是否需要任何特殊设置？如果不是，日志文件位置是什么？最佳答案端口8088显示集群上的所有MR作业。单击MR作业并单击跟踪历史记录。关于hadoop-HDP2.3沙箱mapreduce日志，我们在StackOverflow上找到一个类似的问题： htt

沙箱 mapreduce section stackoverflow hadoop logging sandbox hortonworks-data-platform

java - Eclipse MapReduce 错误 : UnModifiableMap

所以我是Hadoop和MapReduce的新手，正在尝试创建一个简单的WordCount程序。但是，在运行它时，我遇到了一个错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/collections/map/UnmodifiableMapatorg.apache.hadoop.conf.Configuration$DeprecationContext.(Configuration.java:409)atorg.apache.hadoop.conf.Configuration.(Confi

UnModifiableMap MapReduce java URLClassLoader section eclipse hadoop jar

hadoop - 使用 mapReduce 和 hadoop 提取包含特定值的行

我是开发map-reduce函数的新手。假设我有包含四列数据的csv文件。例如:101,87,65,67102,43,45,40103,23,56,34104,65,55,40105,87,96,40现在，我想提取say401024010440105因为这些行在第四列中包含40。mapreduce函数怎么写？最佳答案基本上WordCount示例非常类似于您要实现的目标。您应该有一个条件来检查标记化的字符串是否具有所需的值，而不是初始化每个单词的计数，并且只有在这种情况下您才写入上下文。这将起作用，因为Mapper将分别接收CSV

hadoop mapReduce section strong Reducer feature-extraction

Hadoop MapReduce 作业卡住，因为 auxService :mapreduce_shuffle does not exist

我检查了多个问题相同的帖子，解决方案总是将以下内容添加到yarn-site.xmlyarm.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce_shuffle.classorg.apache.hadoop.mapred.ShuffleHandler我在配置中涵盖了这两个属性并重新启动了yarn。问题依然存在。错误是:17/02/1515:43:34INFOmapreduce.Job:TaskId:attempt_1487202110321_0001_m_000000_2,Sta

卡住 mapreduce_shuffle code lt gt hadoop mapreduce

java - Hadoop MapReduce : Strange Result when Storing Previous Value in Memory in a Reduce Class (Java)

如果我希望存储迭代器的当前值以与Reduce方法中迭代器的下一个值进行比较，Hadoop要求我克隆它而不是简单地将其引用分配给临时变量。我要将代码发布到我的reducer。你会看到两部分:Eclipse中测试的主要方法在Hadoop中执行的reduce方法你会注意到这两行代码是相同的，除了以下几点:main方法从我硬编码到其中的ArrayList获取Iterator，而reduce方法从mapper方法获取Iterator。main方法当然不会执行context.write。这是两者几乎共享的代码:MMIcurrentMMI=null;MMIpreviousMMI=null;Ultra

MapReduce Previous currentMMI previousMMI println java hadoop object-reference reducers

java - 输入大小为 ~ 2Mb 的 Hadoop mapreduce

我尝试使用hadoop分发计算。我正在使用序列输入和输出文件以及自定义可写文件。输入是一个三角形列表，最大大小为2Mb，但也可以小到50kb左右。中间值和输出是自定义Writable中的map(int,double)。这是瓶颈吗？问题是计算比没有hadoop的版本慢很多。另外，将节点从2个增加到10个，并不会加快该过程。一种可能是我没有得到足够的映射器，因为输入量很小。我进行了更改mapreduce.input.fileinputformat.split.maxsize的测试，但它变得更糟，而不是更好。我在本地和amazonelasticmapreduce使用hadoop2.2.0。我

mapreduce Hadoop section iterator IOException java amazon writable