草庐IT

mapreduce_shuffle

全部标签

hadoop - 累积写入 : Trying to create and insert data from mapreduce

我正在尝试使用MapReduce将数据写入Accumulo的表中。以下是我的accumulomapreduce代码。Jobjob=Job.getInstance(conf);AccumuloOutputFormat.setZooKeeperInstance(job,accumuloInstance,zooKeepers);AccumuloOutputFormat.setDefaultTableName(job,accumuloTableName);AccumuloOutputFormat.setConnectorInfo(job,accumuloUser,newPasswordToke

hadoop - mapreduce 作业停留在 0

我有一个奇怪的错误,我的mapreduce作业总是卡在map0%reduce0%。所以我继续做一些研究,发现了这个link当我在namenode上运行hadooptasktracker&时,它确实解决了我的问题,但据我所知,Namenode只支持JobTracker,在某些情况下还支持辅助NameNode。TaskTrackers适用于DataNodes对吗?如果我的理解有误,请纠正我。为什么每次都要在NameNode上启动tasktracker守护进程?是否有一个永久性的解决方案可以自动执行此操作,因为每次我都手动启动NameNode上的TaskTracker。

java - mapreduce 文件输出的标题

我正在开发一个基于MapReduce的应用程序,我想从流程内部添加到我的输出文件(txt文件)标题。这是我目前的输出:pig链球菌41581pig链球菌341581这就是我希望文件的样子:示例1pig链球菌41581pig链球菌341581有人有想法吗? 最佳答案 我假设您正在使用TextOutputFormat并通过调用context.write(key,value);写入您的数据来自你的reducer类型MyReducerextendsReducer您可以重写reducer的setup方法:@Overrideprotectedv

hadoop - 单节点上的 MapReduce 执行顺序

我正在学习Hadoop。我在单个节点上运行Hadoop。据我所知,Reducer在Mapper完成后运行(这也是有道理的)。但是当我在200MB文件上运行MapReduce作业时,Reducer在Mapper完成之前启动。我没有使用任何组合器。谁能解释一下为什么? 最佳答案 reduce阶段涉及将映射器的数据输出复制并合并到reducer。由于复制和合并中间输出不需要障碍(您不需要等待所有映射器完成),这就是映射器运行时缩减器正在做的事情。 关于hadoop-单节点上的MapReduce

python - 在 mongo-hadoop 中运行 mapreduce 示例时出现异常

当我尝试运行该示例时,它显示了一些异常。我已经引用了以下链接以供引用http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/异常如下,hduser@adminpc:/mongo-hadoop$sudo./gradlewjartestJarhistoricalYield[sudo]passwordforhduser::compileJavaUP-TO-DATE:processResourcesUP-TO-DATE:classesUP-TO-DATE:jarUP-TO-DATE:core:compileJ

java - 无法使用 Eclipse 创建 MapReduce 项目

我第一次尝试使用EclipseLuna创建MapReduce项目,但未能成功。我在弹出窗口中收到以下异常。“所选向导无法启动。插件org.apache.hadoop.eclipse无法加载类org.apache.hadoop.eclipse.NewMapReduceProjectWizard。org/apache/hadoop/eclipse/NewMapReduceProjectWizard:不支持的major.minor版本51.0"我使用的是jdk1.6.0_31,并且还在eclipse-preferences中将“编译器合规级别”设置为1.6。我的eclipse版本是LunaS

hadoop - 映射器中的中间文件 (Mapreduce)

所以我是这个Hadoop世界的新手,我试图了解映射器和缩减器的工作原理,我的问题(和疑问)是:我有一个长映射器,在生成[key,value]对之前需要生成一些中间文件。例如,在整个映射器中:文件A和B作为输入,我需要一个输出文件E,其中包含一些无法减少的中间文件。fileA->fileCfileB->fileDfileC+fileD->fileE有没有可能实现这个?中间文件是否保留在节点中? 最佳答案 这是传统无法实现的。但是有2种方法是可能的:您可以从每个映射器创建和写入HDFS上的文件。请注意,因为基于输入数据的大小/编号。文件

hadoop - Mapreduce 处理同一目录中的多个文件

如果我的输入文件夹中有两个文件,hadoopmapreduce会将这两个文件作为.有没有办法为这两个文件指定不同的处理方式?例如,假设我encounter不是为每个单词触发1,如果这个词在文件1中,我想触发一个1,如果它出现在同一目录中的文件2中,我想触发一个2。你会怎么做? 最佳答案 您应该能够获得此帖子中描述的文件名HowtogettheinputfilenameinthemapperinaHadoopprogram?一旦你有了文件名,你就可以有一个条件来检查文件名,你应该能够触发1或2。

hadoop - 如何在MapReduce中使用公共(public)数据?

我想在内存中加载数据并让每个Mapper使用这些数据。我该怎么做?我应该只使用Mapper中的setup方法吗?那么,是否每个Mapper都能够在数据加载后使用一个公共(public)数据呢? 最佳答案 是的,这正是要走的路。你阅读了关于setup()的内容,并将其保存在你的任务内存中。 关于hadoop-如何在MapReduce中使用公共(public)数据?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow

hadoop - 在 MapReduce 作业中增加 ZooKeeper 协商超时

需要增加我的MapReduce作业的协商超时。我尝试设置以下属性:Configurationconf=newConfiguration();conf.set("zk.connectiontimeout.ms","60000");但这并没有帮助。仍然不断收到下面给出的消息。如何以编程方式更改此值?消息如下:15/03/2711:46:40信息zookeeper.ClientCnxn:服务器上的session建立完成,sessionid=0x14bxxbbf2c9e,协商超时=30000 最佳答案 ZooKeeper配置仅在ZooKee