草庐IT

mapReduce

全部标签

Eclipse/MapReduce 插件

我一直在寻找用于eclipse的MapReduce插件,但其中大部分都不适合我。在创建Mappers/Reducers/Drivers时,唯一有效的是使用旧API的模板。所以我想我会自己编译一个,不幸的是,它使用与默认模板相同的“旧API”,这会出错。即使使用最新的alpha和beta(2.0.3和2.0.4)版本的Hadoop。 最佳答案 我成功了。我已经更改了$HADOOP_HOME/src/contrib/eclipse_plugin的源代码,然后使用Hadoop1.2.0对其进行了编译。我想我会分享它,但不知道在哪里。我唯一

java - Hadoop:如何获取 CombineFileInputFormat 中的每个文件路径?

我有很多文件,其中一些很小。为了减少映射器的数量,我想使用CombineFileInputFormat。文件名将用作映射器输出的键的一部分。我尝试了如下几种方法来获取CombineFileSplit中每个chunk的文件名,但都失败了。1)我在函数中看到conf.set("map.input.file",split.getPath(idx).toString());initNextRecordReader()类CombineFileRecordReader。但是NullPointerException发生在我的map()函数中,如context.getConfiguration().g

即使我将 numReducetasks 设置为 2,Hadoop 也只会生成一个输出文件

我在ubuntu上以伪分布式模式设置了hadoop。我的理解是我可以在伪模式下使用多个reducer运行一项工作。但即使将numReducetasks设置为2,我也只得到一个输出文件partr0000。这是为什么?注意:我的输入文件只有12条记录。这是一个二级排序的MR程序。感谢您的帮助。 最佳答案 如果您看到默认分区程序HashPartitioner的getPartition(),它看起来如下所示:publicintgetPartition(Kkey,Vvalue,intnumReduceTasks){return(key.has

java - 获取添加到 Hadoop MR 作业的输入文件数

如何获取在调用FileInputFormat.addInputPath和FileInputFormat.addInputPaths时添加的输入文件的数量。我正在尝试添加与某种模式匹配的输入文件,如果没有文件与该模式匹配并且此MR作业没有输入文件,我想向用户记录一条消息,根本不提交该作业。谢谢,文卡特 最佳答案 FileInputFormat将数据存储在名为ma​​pred.input.dir的Configuration变量中,因此您可以使用以下内容:Configurationconf=job.getConfiguration();S

Hadoop 网络用户 : No such user

在运行hadoop多节点集群时,我的主日志中出现以下错误消息,有人可以建议该怎么做吗..?我需要创建一个新用户还是可以在这里提供我现有的Machine用户名2013-07-2519:41:11,765WARNorg.apache.hadoop.security.UserGroupInformation:Nogroupsavailableforuserwebuser2013-07-2519:41:11,778WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping:gotexceptiontryingtogetgroupsfor

hadoop jar 命令指向本地文件系统

我有一个有效的jar,它在另一个运行相同版本hadoop的系统上完美运行,即具有相同设置的hadoop-1.2.1。我能够将jar文件放入hdfs文件系统并创建输入、输出目录。但是当我使用命令“hadoopjarHelloWorld.jarclassname(mainmethod)inputoutput”时,它会抛出“无效的jar”错误。搜索了很长时间可能的解决方案后,我发现该命令是在本地文件系统中搜索jar,而不是在hdfs中搜索。即使我尝试将方案添加到命令中,如下所示:hadoopjarhdfs://HelloWorld.jarclassname(mainmethod)输入输出有什

hadoop - MapReduce Job 在 reducer 之间的分配

我开发了一个小型mapreduce程序。当我打开进程日志时,我看到框架创建了一个map和两个reducer。我只有一个输入文件,得到两个输出文件。现在请告诉我1)Numberofmapperandreducerarecreatedbyframeworkoritcanbechanged?2)Numberofoutputfilesalwaysequaltonumberofreducers?i.e.eachreducercreatesitsownoutputfile?3)Howoneinputfileisdistributedamongmappers?Andoutputofonemapper

hadoop - 我的 MapReduce 工作失败了

在Eclipse中有一个mapreduce程序。我想运行它。我按照以下网址中的程序操作:http://www.orzota.com/step-by-step-mapreduce-programming/我执行页面上说的所有事情并运行程序。但它显示错误,我的工作失败了。程序创建了输出文件夹,但它是空的。这是我的鳕鱼:packageorg.orzota.bookx.mappers;importjava.io.IOException;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.MapReduceBase;import

hadoop - Apache Hama 和Hadoop Mapreduce 一样有监控网页吗?

Hadoopmapreduce的jobtracker在其端口50030上有一个监控网页,但是当我尝试在其服务端口(我设置为40000)上使用我的HamaBSPMaster节点打开浏览器时,Hama似乎没有这样的监控页。Hama的网站似乎没有提到这种类型的监控工具。请问哈马的BSPMaster有没有这样的监控页面?谢谢, 最佳答案 Web控制台在40013运行,提到here. 关于hadoop-ApacheHama和HadoopMapreduce一样有监控网页吗?,我们在StackOver

java - Apache Hadoop 2.2 中的 org.apache.hadoop.mapreduce 导入问题

我最近安装了新的Hadoop2.2。我以前写过一个简单的WordCountMapReduce程序,它曾经在CDH4上轻松工作。但是现在,我对所有org.apache.hadoop.mapreduce导入都有问题。有人能告诉我到底要导出哪个jar来修复这些导入吗?代码如下,以防万一有人需要指出我需要做的更改以确保它在Hadoop2.2中运行。importjava.io.IOException;importjava.lang.InterruptedException;importjava.util.regex.Matcher;importjava.util.regex.Pattern;im