草庐IT

mapReduce

全部标签

python - 在 mongo-hadoop 中运行 mapreduce 示例时出现异常

当我尝试运行该示例时,它显示了一些异常。我已经引用了以下链接以供引用http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/异常如下,hduser@adminpc:/mongo-hadoop$sudo./gradlewjartestJarhistoricalYield[sudo]passwordforhduser::compileJavaUP-TO-DATE:processResourcesUP-TO-DATE:classesUP-TO-DATE:jarUP-TO-DATE:core:compileJ

java - 无法使用 Eclipse 创建 MapReduce 项目

我第一次尝试使用EclipseLuna创建MapReduce项目,但未能成功。我在弹出窗口中收到以下异常。“所选向导无法启动。插件org.apache.hadoop.eclipse无法加载类org.apache.hadoop.eclipse.NewMapReduceProjectWizard。org/apache/hadoop/eclipse/NewMapReduceProjectWizard:不支持的major.minor版本51.0"我使用的是jdk1.6.0_31,并且还在eclipse-preferences中将“编译器合规级别”设置为1.6。我的eclipse版本是LunaS

hadoop - 映射器中的中间文件 (Mapreduce)

所以我是这个Hadoop世界的新手,我试图了解映射器和缩减器的工作原理,我的问题(和疑问)是:我有一个长映射器,在生成[key,value]对之前需要生成一些中间文件。例如,在整个映射器中:文件A和B作为输入,我需要一个输出文件E,其中包含一些无法减少的中间文件。fileA->fileCfileB->fileDfileC+fileD->fileE有没有可能实现这个?中间文件是否保留在节点中? 最佳答案 这是传统无法实现的。但是有2种方法是可能的:您可以从每个映射器创建和写入HDFS上的文件。请注意,因为基于输入数据的大小/编号。文件

hadoop - Mapreduce 处理同一目录中的多个文件

如果我的输入文件夹中有两个文件,hadoopmapreduce会将这两个文件作为.有没有办法为这两个文件指定不同的处理方式?例如,假设我encounter不是为每个单词触发1,如果这个词在文件1中,我想触发一个1,如果它出现在同一目录中的文件2中,我想触发一个2。你会怎么做? 最佳答案 您应该能够获得此帖子中描述的文件名HowtogettheinputfilenameinthemapperinaHadoopprogram?一旦你有了文件名,你就可以有一个条件来检查文件名,你应该能够触发1或2。

hadoop - 如何在MapReduce中使用公共(public)数据?

我想在内存中加载数据并让每个Mapper使用这些数据。我该怎么做?我应该只使用Mapper中的setup方法吗?那么,是否每个Mapper都能够在数据加载后使用一个公共(public)数据呢? 最佳答案 是的,这正是要走的路。你阅读了关于setup()的内容,并将其保存在你的任务内存中。 关于hadoop-如何在MapReduce中使用公共(public)数据?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow

hadoop - 在 MapReduce 作业中增加 ZooKeeper 协商超时

需要增加我的MapReduce作业的协商超时。我尝试设置以下属性:Configurationconf=newConfiguration();conf.set("zk.connectiontimeout.ms","60000");但这并没有帮助。仍然不断收到下面给出的消息。如何以编程方式更改此值?消息如下:15/03/2711:46:40信息zookeeper.ClientCnxn:服务器上的session建立完成,sessionid=0x14bxxbbf2c9e,协商超时=30000 最佳答案 ZooKeeper配置仅在ZooKee

eclipse - 无法运行 MapReduce kmeans 代码

由于我是map-reduce的初学者,我正在尝试运行此kmeans代码。https://github.com/thomasjungblut/thomasjungblut-common/tree/master/src/de/jungblut/clustering/mapreduce我正在使用EclipseLuna。这段代码有很多其他依赖项。我什至尝试在eclipse中使用这些文件,但有很多依赖性错误。请有人帮忙,如何在eclipse中执行这段代码。我需要检查和下载的所有其他文件是什么。 最佳答案 我将代码移到了不同​​的存储库中。您现

java - 由于 globStatus,MapReduce 作业未产生输出

我不确定为什么我的Mapper和Reducer没有输出。我的代码背后的逻辑是,给定一个UUID文件(新行分隔),我想使用globStatus显示UUID可能所在的所有潜在文件的所有路径。打开并阅读文件。每个文件包含1-n行JSON。UUID在JSON中的event_header.event_id中。现在MapReduce作业运行没有错误。但是,出了点问题,因为我没有任何输出。我也不确定如何调试MapReduce作业。如果有人可以为我提供一个很棒的资源!这个程序的预期输出应该是fee90c3f-e832-4267-aa9b-250f53kc06d31914938ae-eed6-4dfa-

java - 减少阶段的 Mapreduce java 堆空间错误

我有一个简单的mapreduce作业来构建tfidf索引,但是当reducer大约为java堆空间错误时,我总是会遇到错误。70%。我尝试了不同的方法,使用各种结构,告诉我的工作在命令中使用更多内存并在较小的样本上运行我的工作,但没有任何改变甚至很小。我的想法已经结束,所以我将不胜感激任何关于正在发生的事情的提示。Mapper产生正确的输出,但reducer总是由于java堆空间错误而失败。这是我正在运行的命令(我试图指定使用的内存量):hadoopjarWordCountMPv1.jar-Dmapreduce.map.memory.mb=2048-Dmapreduce.reduce.

hadoop - mapreduce 程序中总是需要 mapper 函数?

我正在尝试开发一个hadoopmapreduce程序来计算文本文件中的最高温度。输入文本文件如下所示:城市1-10城市2-15城市3-4城市4-20我是mapreduce的初学者,但我读到过mapper,输出应该是转换为有意义的键值对的输入。但是如果我已经有一个像下面这样的输入文件,我不需要写一个映射器文件(因为已经有了键值对)??城市10城市215城市34城市410我试图开发映射器文件,但我不明白在这种情况下是否真的有必要。代码:forlineinsys.stdin:line=line.strip()printline 最佳答案