草庐IT

elastic-mapreduce-cli

全部标签

hadoop - 使用 Mapreduce 计算期望最大化的高斯混合模型

在哪里可以找到使用EM计算GMM的Mapreduce实现(或教程)?还有,用mapreduce框架真的可行吗?我找到了这个讲座link但它不包含详细描述,如果我的数据(均值和方差)很大,那么我如何将它从映射器传递到缩减器? 最佳答案 OK,你说的,你有实现EM算法的经验。这很容易解释。EM算法如您所知,EM算法是一种寻找最大似然的迭代方法。一次迭代由两个步骤组成,即期望(E-step)和最大化步骤(M-step)。在E-step中,样本的可能性是根据之前的模型计算的。令n为样本数,我们可以获得n可能性。这里,似然计算是独立进行的。所

java - Hadoop Mapreduce 作业卡在 map 上 100% 减少 51%

所以,我正在某处寻找一个无限循环,我不知道是否还有其他原因会导致这种情况。我正在使用四个集群节点,所以我很确定不会缺少RAM,正如其他同类问题中所建议的那样。我的代码:packageorg.myorg;importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.conf.*;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.*;importorg.apache.hadoop

java - mapreduce.TextInputFormat hadoop

我是一个hadoop初学者。我遇到了this自定义RecordReader程序,一次读取3行并输出3行输入被提供给映射器的次数。我能够理解为什么要使用RecordReader,但是当输入格式类本质上是扩展mapreduce.TextInputFormat类时,我无法理解每个InputSplit如何包含3行。根据我的理解,TextInputFormat类为每行(每个\n)发出1个InputSplit。那么RecordReader如何从每个InputSplit中读取3行呢?请有人解释这是怎么可能的。提前致谢! 最佳答案 您需要了解Tex

hadoop - 从本地目录到 HDFS 的副本是否运行 mapreduce 作业?

当我们发出hdfsput或copyfromlocal命令时,它会调用mapreduce作业吗?如果是,运行了多少映射器?如果没有,转移是如何完成的?我阅读了Hadoop权威指南中的文件读取剖析,但想获得更多关于此的见解。 最佳答案 当我们使用put和copyFromLocal命令时,将本地文件复制到HDFS是使用mapreduce作业完成的。它实际上是由hadoop客户端二进制本身使用客户端库和队列使用Streaming完成的。在将内容复制到HDFS时,hadoop/hdfs二进制命令使用DistributedFileSystem类

hadoop - HDP 2.3 沙箱 mapreduce 日志

我的mapreduce程序中有System.out.printlns;MR运行成功,但我无法在任何地方看到日志。我尝试使用"yarnlog-applicationId...",但我仍然看不到我的日志。启用日志是否需要任何特殊设置?如果不是,日志文件位置是什么? 最佳答案 端口8088显示集群上的所有MR作业。单击MR作业并单击跟踪历史记录。 关于hadoop-HDP2.3沙箱mapreduce日志,我们在StackOverflow上找到一个类似的问题: htt

java - Eclipse MapReduce 错误 : UnModifiableMap

所以我是Hadoop和MapReduce的新手,正在尝试创建一个简单的WordCount程序。但是,在运行它时,我遇到了一个错误:Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/commons/collections/map/UnmodifiableMapatorg.apache.hadoop.conf.Configuration$DeprecationContext.(Configuration.java:409)atorg.apache.hadoop.conf.Configuration.(Confi

hadoop - 使用 mapReduce 和 hadoop 提取包含特定值的行

我是开发map-reduce函数的新手。假设我有包含四列数据的csv文件。例如:101,87,65,67102,43,45,40103,23,56,34104,65,55,40105,87,96,40现在,我想提取say401024010440105因为这些行在第四列中包含40。mapreduce函数怎么写? 最佳答案 基本上WordCount示例非常类似于您要实现的目标。您应该有一个条件来检查标记化的字符串是否具有所需的值,而不是初始化每个单词的计数,并且只有在这种情况下您才写入上下文。这将起作用,因为Mapper将分别接收CSV

Hadoop MapReduce 作业卡住,因为 auxService :mapreduce_shuffle does not exist

我检查了多个问题相同的帖子,解决方案总是将以下内容添加到yarn-site.xmlyarm.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce_shuffle.classorg.apache.hadoop.mapred.ShuffleHandler我在配置中涵盖了这两个属性并重新启动了yarn。问题依然存在。错误是:17/02/1515:43:34INFOmapreduce.Job:TaskId:attempt_1487202110321_0001_m_000000_2,Sta

java - Hadoop MapReduce : Strange Result when Storing Previous Value in Memory in a Reduce Class (Java)

如果我希望存储迭代器的当前值以与Reduce方法中迭代器的下一个值进行比较,Hadoop要求我克隆它而不是简单地将其引用分配给临时变量。我要将代码发布到我的reducer。你会看到两部分:Eclipse中测试的主要方法在Hadoop中执行的reduce方法你会注意到这两行代码是相同的,除了以下几点:main方法从我硬编码到其中的ArrayList获取Iterator,而reduce方法从mapper方法获取Iterator。main方法当然不会执行context.write。这是两者几乎共享的代码:MMIcurrentMMI=null;MMIpreviousMMI=null;Ultra

java - 输入大小为 ~ 2Mb 的 Hadoop mapreduce

我尝试使用hadoop分发计算。我正在使用序列输入和输出文件以及自定义可写文件。输入是一个三角形列表,最大大小为2Mb,但也可以小到50kb左右。中间值和输出是自定义Writable中的map(int,double)。这是瓶颈吗?问题是计算比没有hadoop的版本慢很多。另外,将节点从2个增加到10个,并不会加快该过程。一种可能是我没有得到足够的映射器,因为输入量很小。我进行了更改mapreduce.input.fileinputformat.split.maxsize的测试,但它变得更糟,而不是更好。我在本地和amazonelasticmapreduce使用hadoop2.2.0。我