草庐IT

elastic-mapreduce

全部标签

java - mapreduce 文件输出的标题

我正在开发一个基于MapReduce的应用程序,我想从流程内部添加到我的输出文件(txt文件)标题。这是我目前的输出:pig链球菌41581pig链球菌341581这就是我希望文件的样子:示例1pig链球菌41581pig链球菌341581有人有想法吗? 最佳答案 我假设您正在使用TextOutputFormat并通过调用context.write(key,value);写入您的数据来自你的reducer类型MyReducerextendsReducer您可以重写reducer的setup方法:@Overrideprotectedv

hadoop - 单节点上的 MapReduce 执行顺序

我正在学习Hadoop。我在单个节点上运行Hadoop。据我所知,Reducer在Mapper完成后运行(这也是有道理的)。但是当我在200MB文件上运行MapReduce作业时,Reducer在Mapper完成之前启动。我没有使用任何组合器。谁能解释一下为什么? 最佳答案 reduce阶段涉及将映射器的数据输出复制并合并到reducer。由于复制和合并中间输出不需要障碍(您不需要等待所有映射器完成),这就是映射器运行时缩减器正在做的事情。 关于hadoop-单节点上的MapReduce

python - 在 mongo-hadoop 中运行 mapreduce 示例时出现异常

当我尝试运行该示例时,它显示了一些异常。我已经引用了以下链接以供引用http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/异常如下,hduser@adminpc:/mongo-hadoop$sudo./gradlewjartestJarhistoricalYield[sudo]passwordforhduser::compileJavaUP-TO-DATE:processResourcesUP-TO-DATE:classesUP-TO-DATE:jarUP-TO-DATE:core:compileJ

java - 无法使用 Eclipse 创建 MapReduce 项目

我第一次尝试使用EclipseLuna创建MapReduce项目,但未能成功。我在弹出窗口中收到以下异常。“所选向导无法启动。插件org.apache.hadoop.eclipse无法加载类org.apache.hadoop.eclipse.NewMapReduceProjectWizard。org/apache/hadoop/eclipse/NewMapReduceProjectWizard:不支持的major.minor版本51.0"我使用的是jdk1.6.0_31,并且还在eclipse-preferences中将“编译器合规级别”设置为1.6。我的eclipse版本是LunaS

hadoop - 映射器中的中间文件 (Mapreduce)

所以我是这个Hadoop世界的新手,我试图了解映射器和缩减器的工作原理,我的问题(和疑问)是:我有一个长映射器,在生成[key,value]对之前需要生成一些中间文件。例如,在整个映射器中:文件A和B作为输入,我需要一个输出文件E,其中包含一些无法减少的中间文件。fileA->fileCfileB->fileDfileC+fileD->fileE有没有可能实现这个?中间文件是否保留在节点中? 最佳答案 这是传统无法实现的。但是有2种方法是可能的:您可以从每个映射器创建和写入HDFS上的文件。请注意,因为基于输入数据的大小/编号。文件

hadoop - Mapreduce 处理同一目录中的多个文件

如果我的输入文件夹中有两个文件,hadoopmapreduce会将这两个文件作为.有没有办法为这两个文件指定不同的处理方式?例如,假设我encounter不是为每个单词触发1,如果这个词在文件1中,我想触发一个1,如果它出现在同一目录中的文件2中,我想触发一个2。你会怎么做? 最佳答案 您应该能够获得此帖子中描述的文件名HowtogettheinputfilenameinthemapperinaHadoopprogram?一旦你有了文件名,你就可以有一个条件来检查文件名,你应该能够触发1或2。

hadoop - 如何在MapReduce中使用公共(public)数据?

我想在内存中加载数据并让每个Mapper使用这些数据。我该怎么做?我应该只使用Mapper中的setup方法吗?那么,是否每个Mapper都能够在数据加载后使用一个公共(public)数据呢? 最佳答案 是的,这正是要走的路。你阅读了关于setup()的内容,并将其保存在你的任务内存中。 关于hadoop-如何在MapReduce中使用公共(public)数据?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow

hadoop - 在 MapReduce 作业中增加 ZooKeeper 协商超时

需要增加我的MapReduce作业的协商超时。我尝试设置以下属性:Configurationconf=newConfiguration();conf.set("zk.connectiontimeout.ms","60000");但这并没有帮助。仍然不断收到下面给出的消息。如何以编程方式更改此值?消息如下:15/03/2711:46:40信息zookeeper.ClientCnxn:服务器上的session建立完成,sessionid=0x14bxxbbf2c9e,协商超时=30000 最佳答案 ZooKeeper配置仅在ZooKee

eclipse - 无法运行 MapReduce kmeans 代码

由于我是map-reduce的初学者,我正在尝试运行此kmeans代码。https://github.com/thomasjungblut/thomasjungblut-common/tree/master/src/de/jungblut/clustering/mapreduce我正在使用EclipseLuna。这段代码有很多其他依赖项。我什至尝试在eclipse中使用这些文件,但有很多依赖性错误。请有人帮忙,如何在eclipse中执行这段代码。我需要检查和下载的所有其他文件是什么。 最佳答案 我将代码移到了不同​​的存储库中。您现

java - 由于 globStatus,MapReduce 作业未产生输出

我不确定为什么我的Mapper和Reducer没有输出。我的代码背后的逻辑是,给定一个UUID文件(新行分隔),我想使用globStatus显示UUID可能所在的所有潜在文件的所有路径。打开并阅读文件。每个文件包含1-n行JSON。UUID在JSON中的event_header.event_id中。现在MapReduce作业运行没有错误。但是,出了点问题,因为我没有任何输出。我也不确定如何调试MapReduce作业。如果有人可以为我提供一个很棒的资源!这个程序的预期输出应该是fee90c3f-e832-4267-aa9b-250f53kc06d31914938ae-eed6-4dfa-