mapReduce_草庐IT

Hadoop : ClassNotFound Error at MapReduce

只是在提出问题之前说明我的设置，HadoopVersion:1.0.3默认的WordCount示例运行良好。但是当我根据这个页面http://hadoop.apache.org/common/docs/r0.20.2/mapred_tutorial.html创建一个新的WordCount程序时我按照教程中给出的类似方式对其进行了编译和jar压缩。但是当我运行它时使用:/usr/local/hadoop$bin/hadoopjarwordcount.jarorg.myorg.WordCount../Space/input/../Space/output我得到以下错误，java.lang.

hadoop - 亚马逊弹性 MapReduce : Output directory

我正在运行Amazon的运行ElasticMapReduce的示例，并不断遇到以下错误:Errorlaunchingjob,Outputpathalreadyexists.这是运行我正在使用的作业的命令:C:\ruby\elastic-mapreduce-cli>rubyelastic-mapreduce--create--stream\--mappers3://elasticmapreduce/samples/wordcount/wordSplitter.py\--inputs3://elasticmapreduce/samples/wordcount/input\--output[

MapReduce directory 34 section code hadoop amazon-ec2 amazon-web-services elastic-map-reduce

hadoop - 什么时候需要 "no mapper"？

在某些用例中，我已经有一段时间没有使用reducer作业，但我从未遇到过“无映射器”作业。“NoMapper”意味着mapreduce框架仍然会读取输入文件并以某种方式(基于InputFormat？)对它们进行洗牌/排序，这些将成为我的reducer的输入？最佳答案 “无映射器”是“身份映射器”的委婉说法。如果您不指定一个默认映射器就是这样。至少，身份映射器进程将未更改的输入定向到正确的化简器分区。关于hadoop-什么时候需要"nomapper"？，我们在StackOverflow

amp hadoop 射器 section stackoverflow mapreduce

hadoop - 如何更新任务跟踪器以确保我的映射器仍然运行良好而不是产生超时？

我忘了调用什么API/方法，但我的问题是:我的映射器将运行超过10分钟-我不想增加默认超时。我想让我的映射器向任务跟踪器发送更新ping，当它位于消耗时间>10分钟的特定代码路径中时。请让我知道要调用什么API/方法。最佳答案您可以简单地增加一个计数器并调用progress。这将确保任务将心跳发送回tasktracker以了解其是否存活。在新API中，这是通过上下文管理的，请参见此处:http://hadoop.apache.org/common/docs/r1.0.0/api/index.html例如@Overrideprot

跟踪器射器 section hadoop mapreduce

java - Hadoop Mapreduce 自定义拆分/自定义记录读取器

我有一个巨大的文本文件，我想拆分文件，使每个block有5行。我实现了自己的GWASInputFormat和GWASRecordReader类。但是我的问题是，在下面的代码(我从http://bigdatacircus.com/2012/08/01/wordcount-with-custom-record-reader-of-textinputformat/复制的)中，在initialize()方法中我有以下几行FileSplitsplit=(FileSplit)genericSplit;finalPathfile=split.getPath();Configurationconf=c

自定读取器 code apache hadoop java

Hadoop 1.0.3 mapred.map.tasks 属性不工作

我正在使用hadoop1.0.3运行mapreduce作业。我有一个3节点集群设置。问题是我在/conf/mapred-site.xml中将属性mapred.map.tasks设置为20，但是当我运行该作业并使用以下网页访问集群信息时，hadoop仅显示6个maptask:50030。我已经在集群中的所有节点上编辑了上述配置文件。请帮忙。问候，莫辛最佳答案正如miguno所说，Hadoop只将mapred.map.tasks的值视为提示。也就是说，当我在使用MapReduce时，我能够通过指定最大计数来增加映射计数。这可能不适合

Hadoop mapred section map mapreduce

java - PIG - 找到接口(interface) org.apache.hadoop.mapreduce.JobContext，但类是预期的

我试图从配置单元加载一个表。为此，我正在使用Hcatalog。我使用登录到配置单元pig-useHCatalog我从hive和hadoop导出了几乎所有的jarregister'hdfs://localhost:8020/user/pig/jars/hive-jdbc-0.10.0-cdh4.5.0.jar';register'hdfs://localhost:8020/user/pig/jars/hive-exec-0.10.0-cdh4.5.0.jar';register'hdfs://localhost:8020/user/pig/jars/hive-common-0.10.0-

JobContext interface localhost register 39 java hadoop hive apache-pig hcatalog

hadoop - 简单 Yarn 应用程序的 NoClassDefFoundError

我试图从simple-yarn-app运行简单的yarn应用程序.但是我的应用程序错误日志中出现以下异常。Exceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop/yarn/conf/YarnConfigurationatjava.lang.Class.getDeclaredMethods0(NativeMethod)atjava.lang.Class.privateGetDeclaredMethods(Class.java:2531)atjava.lang.Class.getMethod0(Clas

NoClassDefFoundError hadoop lib yarn mapreduce hadoop-yarn

hadoop - 遍历 ArrayWritable - NoSuchMethodException

我刚开始使用MapReduce，遇到了一个我无法通过Google解决的奇怪错误。我正在使用ArrayWritable制作一个基本程序，但是当我运行它时，在Reduce期间出现以下错误:java.lang.RuntimeException:java.lang.NoSuchMethodException:org.apache.hadoop.io.ArrayWritable.()atorg.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115)atorg.apache.hadoop.io.seriali

NoSuchMethodException ArrayWritable hadoop apache mapreduce iteration nosuchmethoderror

hadoop - 是否可以根据文件数量判断使用的映射器/缩减器的数量？

我想知道是否可以根据文件数量判断(默认情况下)使用的映射器/缩减器的数量？我知道映射器的数量取决于block大小而不是实际文件大小，但我想确定我是否遗漏了什么。例如:如果hdfs中有4个目录，里面有4个文件。dir1/file1-contains(testingfile1,testingagain)dir2/file2-contains(testingfile2,testingagain)dir3/file3-contains(testingfile3,testingagain)dir4/file4-contains(testingfile4,testingagain)有没有办法知道处

射器缩减 section testing hadoop mapreduce cloudera