mapreduce_shuffle

eclipse - 尝试使用 eclipse Indigo 运行 MapReduce 作业时出错

我正在尝试使用hadoop-eclipse插件和EclipseIndigo运行MapReduce作业，但出现以下错误:错误:登录失败在寻求帮助时，我发现Hadoop-0.20.203.0存在问题，因此我尝试了Hadoop-0.20.205.0，因为此版本已修复问题。我仍然面临同样的问题。我是否遗漏了什么或犯了错误？最佳答案对不起，我的英语不好，因为你的问题没有更多的细节，我想你遇到了和我一样的问题，如果是的话，下面的链接解决了我的问题，请。注意步骤“4”。http://hi.baidu.com/wangyucao1989/blo

时出 eclipse section hadoop-eclipse-plugin hadoop hadoop-plugins

hadoop - 如何从 Windows 在亚马逊的弹性 mapreduce (emr) 集群上运行 mapreduce 作业？

我正在尝试学习如何在亚马逊的EMR上运行JavaMap/Reduce(M/R)作业。我关注的文档在这里http://aws.amazon.com/articles/3938.我使用的是Windows7计算机。当我尝试运行此命令时，会显示帮助信息。./elasticmapreduce-client.rbRunJobFlowstreaming_jobflow.json当然，因为我在Windows机器上，所以我实际上输入了这个命令。我不确定为什么，但是对于这个特定的命令，没有Windows版本(所有命令都成对显示，一个用于*nix，一个用于Windows)。rubyelastic-mapre

mapreduce Windows elastic-mapreduce section hadoop elastic-map-reduce amazon-emr

database - 结合 Hadoop MapReduce 和数据库查询

我正在运行的某个作业需要在处理一些大型HDFS文件之前从数据库(MySQL，尽管这不是很相关)收集一些元数据。此元数据将添加到文件中的数据中，并传递到后面的映射/合并/缩减阶段。我想知道放置此查询的“正确”位置可能在哪里。我需要元数据在映射器开始时可用，但将它放在那里似乎是多余的，因为每个映射器都将执行相同的查询。我如何(如果有的话)执行一次此查询并在所有映射器之间共享其结果？是否有一种通用方法可以在执行任务的所有节点之间共享数据(除了将其写入HDFS之外)？谢谢。最佳答案您可以在主函数中进行MYSql查询，查询结果可以存储在字

MapReduce database code 射器 br data-binding hadoop

hadoop - 如何在一个终端提交多个 mapreduce 作业？

我正在使用mapreduce来运行程序，提交一个作业:我可以使用以下格式./hadoopjarprogram.jar参数在一个终端中，这可以提交一个作业，但是如果我要提交100个作业怎么办？不可能打开100个终端所以我正在寻找批量提交作业的方法，谢谢! 最佳答案您在主方法中循环调用ToolRunner.run(..)。请务必修改您的工具实例以调用Job.submit()而不是Job.waitForCompletion()-确保您的作业更多地并行运行而不是顺序运行(您仍然受集群大小/配置可以并行运行的作业数量的限制):publicc

mapreduce hadoop section code public job-scheduling

hadoop - 将 Hadoop MapReduce 限制为特定文件扩展名

我正在尝试在我的集群上运行MapReduce作业，该作业仅在特定文件扩展名上运行。我们有一堆位于集群上的异构数据，对于这个特定的作业，我只想在.jpg上执行。有没有一种方法可以在不限制映射器的情况下完成。执行作业时，这似乎应该很容易做到。我在想hadoopfsJobName/users/myuser/data/*.jpg/users/myuser/output之类的东西。最佳答案您的示例应该按编写的方式工作，但您需要检查调用setInputPaths(Job,String)方法的输入格式，因为这将解析glob字符串“/users

扩展名 MapReduce section myuser users hadoop

hadoop - 将 MapReduce Counter 值设置为某个值

我没有看到一开始就设置MapReduce作业的计数器值的直接方法吗？map/reduce任务之间的计数器增量原子操作也是如此吗？最佳答案不确定您在开始时设置计数器值是什么意思-您的意思是将计数器值初始化为0以外的值(您这样做的用例是什么？)。至于原子操作，计数器是为每个任务单独累加的。当任务完成时，计数器值被提交到全局总数(只有提交的任务被提交，所以如果你有两个任务正在运行，只有成功的任务计数器被提交。关于hadoop-将MapReduceCounter值设置为某个值，我们在Sta

MapReduce Counter section stackoverflow 一开 hadoop

java - 如何使用 mapreduce 合并一些文件？

我打算用map/reduce合并一些在同一个目录下的小文件。我看到有人说使用streaming会很简单，但现在我只能使用JAVAmap/reduce。现在我的解决方案是一条一条记录读取文件并将它们写入同一个输出文件。但我认为它效率低下。我可以使用整个文件的内容作为映射器的值来提高I/O效率吗？感谢您的回复! 最佳答案执行此操作的“低效”方法是只对文件进行分类并将其写回:hadoopfs-cat/path/to/files/*.txt|hadoopfs-put-/output/path/blobbed.txt您可能会发现这适用于更大

mapreduce java section 并将 stackoverflow file-io merge hadoop

Hadoop MapReduce 作业输入文件 ClassNotFound

我正在hadoop集群上构建一个示例Map/Reduce任务，该集群包含两个节点——主/从节点和从节点。以下是我的规范:$HADOOP_HOME=/usr/local/hadoopMyM/Rclassfilespath=$HADOOP_HOME/MyMapRed_classesMyMapperclassfile=$HADOOP_HOME/MyMapRed_classes/MyMapperMyReducerclassfile=$HADOOP_HOME/MyMapRed_classes/MyReducerMyJarpath=$HADOOP_HOME/MyMapred/MyMapRed.ja

ClassNotFound MapReduce hadoop DoubleWritable MyMapRed hadoop-streaming

java - 具有 "customized"键的 MapReduce

我有以下问题:我有很多键值对形式的数据。关键是一些id和值-一些文本。我的目标是将这些对象分组到文本片段以某种方式“相似”的集群中。所以它看起来像是MapReduce的任务，如果将我的文本片段作为键，并将id作为值。但是这样的键不是MapReduce使用的传统方式，并且由于我并不真正了解MapReduces框架的内部实现，所以我不确定这种方式是否有效。所以我的详细想法是:1.在Java中使用一些MapReduce(Hadoop、GridGain)2.为我的文本片段创建特殊类(比如TextKey)3.覆盖类的equals()，在这里打包文本比较逻辑(比如levenstein距离比较，或其

customized amp section MapReduce 本片 java hadoop equals gridgain

hadoop - MapReduce 基于三个字段的排序

这个问题是关于Map/Reduce排序的。我有三个字段XXID,Identifier,TimeStampXXID可以是任意字符串值，标识符有两个可能的值1或2我希望排序是这样的，即所有相同的XXID都进入同一个reducer，并且在可迭代中，带有1的字段首先出现在可迭代中，随着时间戳的增加，带有2的字段紧随其后。谁能帮我解决这个问题？最佳答案你这样做肯定违反了mapreduce框架，但你必须做你必须做的事!首先，排序只对键进行。因此，您必须假设这些值将以任意顺序排列。因此，我们需要弄清楚如何获取key中的XXID、标识符和时间戳

三个字 MapReduce code section hadoop

130 131 132133134 135 136