mapreduce_shuffle

hadoop - 如何解决 Oozie 错误 : JA009: Cannot initialize Cluster. 检查 mapreduce.framework.name 的配置

我一直在使用oozie来安排spark作业。尝试使用Oozie中可用的spark操作在2.x集群中部署spark作业。在我的job.properties中，我有以下内容`nameNode=hdfs://hostname:8020jobTracker=hostname:8050master=yarn-clusterqueueName=defaultoozie.use.system.libpath=true`当我提交oozie作业时，我一直收到此错误错误:错误代码[JA009]，消息[JA009:无法初始化集群。请检查您的mapreduce.framework.name配置和相应的服务器地

java - hadoop中的mapreduce距离计算

有没有使用hadoopmap/reduce的距离计算实现。我正在尝试计算一组给定点之间的距离。寻找任何资源。编辑这是一个非常智能的解决方案。我已经尝试了一些与第一种算法相似的方法，并且几乎得到了我想要的东西。我目前不关心优化程序，但我的问题是dist(X,Y)函数不起作用。当我得到reducer上的所有点时，我无法遍历Iterator上的所有点并计算距离。stackoverflow.com上有人告诉我hadoop上的迭代器与普通的JAVA迭代器不同，我不确定。但是，如果我能找到一种简单的方法来遍历我的dist()函数上的迭代器，我就可以使用您的第二个算法进行优化。//Thisisyou

python - 迭代 MapReduce

我已经为Hadoop编写了一个简单的k-means集群代码(两个独立的程序-mapper和reducer)。该代码正在我本地盒子上的一个小型二维点数据集上工作。它是用Python编写的，我打算使用StreamingAPI。我想要关于如何最好地在Hadoop上运行这个程序的建议。每次运行mapper和reducer后，都会生成新的中心。这些中心是下一次迭代的输入。据我所知，每个mapreduce迭代都必须是一个单独的mapreduce作业。看起来我必须编写另一个脚本(python/bash)在每个减少阶段后从HDFS中提取新中心，并将其反馈给映射器。还有其他更简单、更简单的方法吗？如果集

graph - Hadoop MapReduce 在图中实现最短路径，而不仅仅是距离

我一直在寻找“最短路径搜索算法的MapReduce实现”。但是，我能找到的所有实例都“计算了从节点x到y的最短距离”，但实际上没有一个实例输出“像x-a-b-c-y这样的实际最短路径”。至于我想要实现的是我有数百个节点的图形，我需要对各个节点之间的最短路径执行频繁的模式分析。这是我正在进行的研究项目。如果有人能指出一些实现(如果存在的话)或给出一些关于如何破解现有SSSP实现以生成路径和距离. 最佳答案基本上这些实现与某种消息传递一起工作。因此消息在map和reduce阶段之间被发送到HDFS。在reducer中，它们按距离分组和

hadoop - 在 MapReduce 中以最佳方式执行 HBase 查询

问题我们有多个HBase表:A、B、C。假设A是需要处理的记录队列。它可能包含平均2500万条记录。A有用户ID。B有每个用户执行的网站点击。B可能包含数十亿行。C有一些关于用户的次要信息。我们使用MapReduce作业对队列中的记录执行预测分析(成千上万的决策树)。问题的范围不包括实际的分析建模。问题MR作业正在对表B和C执行即席查询。例如，Map任务1执行查询以获得用户1的命中，Map任务2执行查询以获得用户2的命中。如果这些命中最终位于同一区域服务器，它会影响性能(竞争条件等)吗？是否有像ChainMapper(ChainReducer)这样的模式来拆分输入集，以便每个映射器都具

amazon-web-services - 使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库

我必须使用名为weka的第三方库执行一些数据挖掘任务。但我不确定如何在amazonelasticmapreduce服务中包含所需的jar文件。有没有人有处理过这种情况的经验？最佳答案一个简单的解决方案是使用映射器和缩减器将依赖项放入jar文件中。如果您使用Maven构建我建议使用MavenAssemblyPlugin用于打包具有所有依赖项的单个jar的插件。关于amazon-web-services-使用亚马逊弹性mapreduce服务时如何在hadoop中包含第三方库，我们在St

hadoop - 使用 hadoop mapreduce 作业从日志文件分析时间范围内的总错误条目发生率

我在HDFS中存储了大量日志文件，如下所示:2012-10-2000:05:00;BEGIN...SQLERROR-678:Errormessage...2012-10-2000:47:20;END我想知道某个时间范围内某些sql错误代码出现的频率，例如:从2012年10月20日凌晨0:00到2012年10月20日凌晨1:00，发生了多少678SQL错误。由于文件通常被分成几个block，它们可以分布在所有数据节点之间。这样的查询可能吗？我想使用hadoopmapreduceJavaAPI或ApachePig，但我不知道如何应用时间范围条件。最佳答案

java - 在运行一个简单的 MapReduce 程序时获取 java.lang.ClassCastException : class java. lang.String

我正在尝试执行一个简单的MapReduce程序，其中Map接受输入，将其分成两部分(key=>String和value=>Integer)reducer汇总相应键的值我每次都收到ClassCastException。我无法理解，代码中的什么导致了这个错误我的代码:importjava.io.IOException;importjava.util.Iterator;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.LongWritable;importorg.apache.hadoop.io.Text;importorg

java - 用于从 hdfs 提供输入并将输出写入 excel 文件的 Hadoop Mapreduce 示例

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我是Hadoop编程的新手，我在Haddop中找到了一些关于mapreduce的有用链接，我可以处理。这对我和初学者都非常有用。所有示例都显示为从eclipse提供输入，输出可以在eclipse的输出文件夹中看到。在这里我想知道如何从HDFS提供输入(我的意思是而不是从eclipse提供)。并将输出写入某个Excel文件。请多多指教。

java - 静态变量在可运行 jar 中不起作用(hadoop mapreduce)

这个问题在这里已经有了答案:HadoopMapReducereferencestaticobjects(3个答案)关闭8年前。我是hadoop的新手。我正在尝试在我的映射器中使用静态变量。我在主类中声明静态变量publicstaticStringvar="";之后我在我的main()中给出了一些动态值var="123456";然后我在映射器类中的map()中使用这个变量但它给我nullpointerException。当我使用Eclipse时，我能够在具有maven依赖项的普通Java核心项目中执行但是当我使它成为可运行的jar并且它在hadoop服务器上运行它给我nullPointe