mapReduce_草庐IT

Eclipse/MapReduce 插件

我一直在寻找用于eclipse的MapReduce插件，但其中大部分都不适合我。在创建Mappers/Reducers/Drivers时，唯一有效的是使用旧API的模板。所以我想我会自己编译一个，不幸的是，它使用与默认模板相同的“旧API”，这会出错。即使使用最新的alpha和beta(2.0.3和2.0.4)版本的Hadoop。最佳答案我成功了。我已经更改了$HADOOP_HOME/src/contrib/eclipse_plugin的源代码，然后使用Hadoop1.2.0对其进行了编译。我想我会分享它，但不知道在哪里。我唯一

java - Hadoop:如何获取 CombineFileInputFormat 中的每个文件路径？

我有很多文件，其中一些很小。为了减少映射器的数量，我想使用CombineFileInputFormat。文件名将用作映射器输出的键的一部分。我尝试了如下几种方法来获取CombineFileSplit中每个chunk的文件名，但都失败了。1)我在函数中看到conf.set("map.input.file",split.getPath(idx).toString());initNextRecordReader()类CombineFileRecordReader。但是NullPointerException发生在我的map()函数中，如context.getConfiguration().g

CombineFileInputFormat Hadoop code CombineLzoLineRecordReader CombineFileSplit java mapreduce

即使我将 numReducetasks 设置为 2，Hadoop 也只会生成一个输出文件

我在ubuntu上以伪分布式模式设置了hadoop。我的理解是我可以在伪模式下使用多个reducer运行一项工作。但即使将numReducetasks设置为2，我也只得到一个输出文件partr0000。这是为什么？注意:我的输入文件只有12条记录。这是一个二级排序的MR程序。感谢您的帮助。最佳答案如果您看到默认分区程序HashPartitioner的getPartition()，它看起来如下所示:publicintgetPartition(Kkey,Vvalue,intnumReduceTasks){return(key.has

numReducetasks 即使 code section reducer hadoop mapreduce

java - 获取添加到 Hadoop MR 作业的输入文件数

如何获取在调用FileInputFormat.addInputPath和FileInputFormat.addInputPaths时添加的输入文件的数量。我正在尝试添加与某种模式匹配的输入文件，如果没有文件与该模式匹配并且此MR作业没有输入文件，我想向用户记录一条消息，根本不提交该作业。谢谢，文卡特最佳答案 FileInputFormat将数据存储在名为mapred.input.dir的Configuration变量中，因此您可以使用以下内容:Configurationconf=job.getConfiguration();S

Hadoop java section code FileInputFormat mapreduce

Hadoop 网络用户 : No such user

在运行hadoop多节点集群时，我的主日志中出现以下错误消息，有人可以建议该怎么做吗..？我需要创建一个新用户还是可以在这里提供我现有的Machine用户名2013-07-2519:41:11,765WARNorg.apache.hadoop.security.UserGroupInformation:Nogroupsavailableforuserwebuser2013-07-2519:41:11,778WARNorg.apache.hadoop.security.ShellBasedUnixGroupsMapping:gotexceptiontryingtogetgroupsfor

Hadoop such gt lt property mapreduce hadoop-streaming hadoop-plugins hadoop-partitioning

hadoop jar 命令指向本地文件系统

我有一个有效的jar，它在另一个运行相同版本hadoop的系统上完美运行，即具有相同设置的hadoop-1.2.1。我能够将jar文件放入hdfs文件系统并创建输入、输出目录。但是当我使用命令“hadoopjarHelloWorld.jarclassname(mainmethod)inputoutput”时，它会抛出“无效的jar”错误。搜索了很长时间可能的解决方案后，我发现该命令是在本地文件系统中搜索jar，而不是在hdfs中搜索。即使我尝试将方案添加到命令中，如下所示:hadoopjarhdfs://HelloWorld.jarclassname(mainmethod)输入输出有什

hadoop jar section mapreduce

hadoop - MapReduce Job 在 reducer 之间的分配

我开发了一个小型mapreduce程序。当我打开进程日志时，我看到框架创建了一个map和两个reducer。我只有一个输入文件，得到两个输出文件。现在请告诉我1)Numberofmapperandreducerarecreatedbyframeworkoritcanbechanged?2)Numberofoutputfilesalwaysequaltonumberofreducers?i.e.eachreducercreatesitsownoutputfile?3)Howoneinputfileisdistributedamongmappers?Andoutputofonemapper

MapReduce reducer strong section hadoop cloud

hadoop - 我的 MapReduce 工作失败了

在Eclipse中有一个mapreduce程序。我想运行它。我按照以下网址中的程序操作:http://www.orzota.com/step-by-step-mapreduce-programming/我执行页面上说的所有事情并运行程序。但它显示错误，我的工作失败了。程序创建了输出文件夹，但它是空的。这是我的鳕鱼:packageorg.orzota.bookx.mappers;importjava.io.IOException;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.MapReduceBase;import

MapReduce hadoop mapred INFO JobClient word-count

hadoop - Apache Hama 和Hadoop Mapreduce 一样有监控网页吗？

Hadoopmapreduce的jobtracker在其端口50030上有一个监控网页，但是当我尝试在其服务端口(我设置为40000)上使用我的HamaBSPMaster节点打开浏览器时，Hama似乎没有这样的监控页。Hama的网站似乎没有提到这种类型的监控工具。请问哈马的BSPMaster有没有这样的监控页面？谢谢，最佳答案 Web控制台在40013运行，提到here. 关于hadoop-ApacheHama和HadoopMapreduce一样有监控网页吗？，我们在StackOver

Mapreduce hadoop section Hama stackoverflow monitoring

java - Apache Hadoop 2.2 中的 org.apache.hadoop.mapreduce 导入问题

我最近安装了新的Hadoop2.2。我以前写过一个简单的WordCountMapReduce程序，它曾经在CDH4上轻松工作。但是现在，我对所有org.apache.hadoop.mapreduce导入都有问题。有人能告诉我到底要导出哪个jar来修复这些导入吗？代码如下，以防万一有人需要指出我需要做的更改以确保它在Hadoop2.2中运行。importjava.io.IOException;importjava.lang.InterruptedException;importjava.util.regex.Matcher;importjava.util.regex.Pattern;im

mapreduce Apache hadoop IntWritable import java