草庐IT

Iterator-reducer

全部标签

hadoop - Reducer 中的多个输出

我正在研究简单的mapreduce程序。我想在reducer之后为key中的每个不同单词创建不同的文件。例如,在执行Mapreduce之后我有类似的东西优先级1x2优先级1和2优先级1z2优先级2x​​2优先级2y2现在我想要在reduce阶段后使用不同的文件,比如Priority1和Priority2,它们根据优先级具有所有这些值。我正在使用java,想知道在reducer中应该写什么来获得这种输出?我只想知道这是否可能,或者如何解决或解决这个问题?我使用的是Hadoop0.20.203,因此多重输出不起作用。任何指针都会有所帮助。谢谢您的帮助!阿图尔 最

Hadoop - 仅用于 Reduce 的故障恢复

我有一个Hadoop作业正在运行,它已经完成了4天的map部分,现在它似乎在reduce阶段暂停(reducer已完成30%)我真的希望有一种方法可以只重新处理reduce部分,而不必重新处理长期运行的map部分,有什么建议吗?如果我只有一个reducer,情况可能会变得更糟。 最佳答案 Hadoop只会在您的情况下重新启动Reduce步骤。但是,如果您的作业失败,您不能跳过map步骤。在这种情况下,您应该将这两个阶段分成单独的作业,尤其是当您的映射器是计算密集型的时候。 关于Hadoo

hadoop - 如何使用 MAP-REDUCE java 程序将 HBASE 表加载到 HDFS

如何编写一个MAP-REDUCEjava程序来将任何表从HBASE加载到HDFS中?而不是使用下面的命令,我如何使用MAP-REDUCEjava程序编写一个TRANSFORMATION,它将从HBASE导出任何表并加载到HDFS??bin/hbaseorg.apache.hadoop.hbase.mapreduce.Driverexporthdfs://user/etc*** 最佳答案 查看codeoftheExporthbase自带的函数 关于hadoop-如何使用MAP-REDUCE

java - 在我的 Map-Reduce 作业中包含第三方库(使用分布式缓存)

在我的映射器代码中,我使用了JTS.jar的第3方库。我需要把它放在hadoop的分布式缓存上,这样所有节点都可以访问它。我在this找到-libjars可用于执行此操作的链接。我现在使用执行我的代码hadoopjar-libjarsJTS.jarmy_jar.jarclassnameinputFilesoutputFiles。但这行不通。关于如何解决这个问题有什么建议吗? 最佳答案 尝试使用正确的命令行参数顺序。我认为该错误消息很有启发性。hadoopjarmy_jar.jarclassname-libjarsJTS.jarinp

python - 如何在多步 map-reduce 程序中运行一次最终的 'print' 语句?

我主要是尝试通过在Hadoop上扩展来实现推荐系统。在第一步中,我尝试计算输入文件中每对项目之间的相似度。如果我将其简单地存储为{A项,B项,相似度}输出文件大小变得非常非常大(对于60kb输入,我得到的输出文件大小为6mb)。因此我想是否将结果存储在pythondict中并在整个mapreduce程序结束后仅打印一次dict会更好。我这样做不成功请帮助我。我的python代码是:#!/usr/bin/envpythonfrommrjob.jobimportMRJobfrommathimportsqrtfromitertoolsimportcombinationsPRIOR_COUNT

hadoop - 为什么hadoop jobtracker reducer进度条不能达到100%,但是这个job已经完成了

我使用hadoop0.20.0在4个节点的集群上运行一个程序。但是,当我查看jobtracker:50030时,发现hadoopjobtrcker显示reducer进度条无法达到100%,但是jobs已经成功完成。截图如下。我真的很好奇为什么会这样。但是,我的工作已成功完成。 最佳答案 这看起来像是获取进度报告的jobtracker中的错误。然而,由于Hadoop0.20.0于2009年发布并且有quiteafewreleasessincethen-这是一个有争议的问题 关于hadoop

eclipse - 使用运行对话框 (F11) 在 Eclipse 中的远程集群上启动 Hadoop Map Reduce 作业

是否可以使用EclipseRunDialog(F11)在远程集群上启动MapReduce作业?目前我必须使用外部工具链对话框和Maven来运行它。注意:要在本地集群上执行它与RunDialog没什么大不了的。但是对于远程连接,必须有一个已编译的JAR。否则你会得到一个ClassNotFoundException(如果设置了Jar-By-Class)我们当前的设置是:Spring-Data-Hadoop1.0.0STS-Springsource工具套件专家CDH4这是我们在applicationContext.xml上设置的(这是您在vanillahadoop上的*-site.xml中指

使用 Java Mapper/Reducer 的 Hadoop Streaming

我正在尝试使用javaMapper/Reducer在一些维基百科转储(压缩的bz2形式)上运行hadoop流作业。我正在尝试使用WikiHadoop,这是维基媒体最近发布的一个界面。WikiReader_Mapper.javapackagecourseproj.example;//Mapper:emits(token,1)foreveryarticleoccurrence.publicclassWikiReader_MapperextendsMapReduceBaseimplementsMapper{//Reuseobjectstosaveoverheadofobjectcreatio

java - 同一文件中两个不同键的 Reducer 输出值

您好,我写了一个一般解析XML文件的mapreduce作业。我能够解析XML文件并正确生成所有键值对。我有6个不同的键和相应的值。所以我并行运行了6个不同的reducer。现在我面临的问题是reducer将两个不同的键值对放在同一个文件中,并将剩余的4个键值对放在单独的文件中。所以简而言之,在reducer输出的6个文件中,我得到4个具有单键值对的文件和1个具有两个键值对的文件和1个什么都没有的文件。我尝试在Google和各种论坛上进行研究,唯一得出的结论是我需要一个分区程序来解决这个问题。我是hadoop新手,所以有人可以阐明这个问题并帮助我解决这个问题。我正在研究一个伪节点集群并使

java - Hadoop 只从 reducer 产生一个输出

虽然我知道Hadoop通常不用于图像处理,但作为概念证明,我一直在尝试使用Hadoop实现图像处理。在这样做的过程中,我成功地实现了Sobel边缘检测算法,以使用MapReduce模型并在Hadoop下运行。我的程序应该从HDFS获取一个文件夹作为输入并处理文件夹中的文件并将输出写入HDFS。但是,它正在考虑输入文件夹中的单个文件并将单个文件写入输出。这里是文件的源代码https://gist.github.com/ardahal/f0046e50e04fadc28a96 最佳答案 这将是半自动的,但聊胜于无。比方说,您的输入目录是