草庐IT

Hadoop Map-reduce编程语法错误

我的输入是很多文本文件。我希望我的map-reduce程序将所有文件名和相关句子写入一个输出文件中,我只想从映射器发出文件名(键)和相关句子(值).reducer将收集键和所有值,并在输出中写入文件名及其关联的句子。这是我的mapper和reducer的代码:importjava.io.IOException;importjava.util.*;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapred.*;publicclassWordCount{publics

java - hadoop mapreduce 给出子错误

我在ubuntu13.10上使用hadoop1.2.1。我正在运行输入文件大小为25GB的排序问题。但是我收到错误:14/09/2912:42:47INFOmapred.JobClient:map51%reduce17%14/09/2912:44:08INFOmapred.JobClient:TaskId:attempt_201409291048_0003_m_000208_0,Status:FAILEDjava.lang.Throwable:ChildErroratorg.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)

java - 为什么 Hadoop 无法在本地模式下找到这个文件,即使它存在?

通过maven在本地模式下运行Hadoop时出现此错误。15/03/2412:45:24INFOmapred.MapTask:Mapoutputcollectorclass=org.apache.hadoop.mapred.MapTask$MapOutputBuffer15/03/2412:45:24INFOmapred.MapTask:(EQUATOR)0kvi26214396(104857584)15/03/2412:45:24INFOmapred.MapTask:mapreduce.task.io.sort.mb:10015/03/2412:45:24INFOmapred.Map

hadoop - oozie 中的 org.apache.hadoop.mapred.lib.MultipleOutputs.addNamedOutput()

我正在尝试使用MultipleOutputs来更改reducer中的输出文件名。我正在使用oozie工作流来运行mapreduce作业。我找不到在oozie工作流中添加以下属性的方法-MultipleOutputs.addNamedOutput(job,"text",TextOutputFormat.class,Text.class,Text.class);因为它是ooziemapreduce操作,所以我没有驱动程序类放在上面的代码。 最佳答案 答案就在方法的源代码中。来自hadoopcore1.2.1jar/**/publicst

java - Hadoop 示例作业在独立模式下失败并显示 : "Unable to load native-hadoop library"

我正在尝试让最简单的Hadoop“helloworld”设置正常工作,但是当我运行以下命令时:hadoopjar/usr/share/hadoop/hadoop-examples-1.0.4.jargrepinputoutput'dfs[a-z.]+'我收到以下警告:12/11/3016:36:40WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable完整的错误跟踪如下:12/11/3016:57:18WARNu

hadoop - Hadoop中的mapred进程是多线程的吗?

我已经将hadoop集群的mapred_map_tasks_max配置为6,正如预期的那样,我看到在启动PIG作业时有6个mapred进程在运行。然而,我有点惊讶地看到其中一些进程的CPU使用率超过100%,有时甚至达到1000%+。mapreduce是否默认为多线程?这会不会是Pig本身的问题?我在网上只能找到一些关于设置(mapred.map.runner.class)的信息,但这似乎并没有设置为多线程。谢谢。PIDUSERPRNIVIRTRESSHRS%CPU%MEMTIME+命令2630mapred20053.4g2.8g12mS218.14.51:17.32java2553m

hadoop - 调试教程 Hadoop Pipes-Project

我正在处理这个tutorial并到达最后一部分(有一些小的变化)。现在,我遇到了无法理解的错误消息。damian@damian-ThinkPad-T61:~/hadoop-1.1.2$bin/hadooppipes-Dhadoop.pipes.java.recordreader=true-Dhadoop.pipes.java.recordwriter=true-inputdft1-outputdft1-out-programbin/word_count13/06/0920:17:01INFOutil.NativeCodeLoader:Loadedthenative-hadooplibr

hadoop - 如何配置和重新启动在 Azure 上运行的 HDInsight 群集?

具体来说,我想更改在MicrosoftAzure上运行的HDInsight集群中每个节点的最大映射器数量和最大缩减器数量。我使用远程桌面登录到头节点。我编辑了头节点上的mapred-site.xml文件并更改了mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum值。我尝试重新启动头节点,但无法重新启动。我使用start-onebox.cmd和stop-onebox.cmd脚本来尝试启动/停止HDInsight。然后我运行了一个流式mapreduce,将所需数量的reducer传递给had

r - Hadoop 流在 R 中失败

我正在运行RHadoop的示例脚本来测试系统并使用以下命令。library(rmr2)library(rhdfs)Sys.setenv(HADOOP_HOME="/usr/bin/hadoop")Sys.setenv(HADOOP_CMD="/usr/bin/hadoop")Sys.setenv(HADOOP_STREAMING="/opt/cloudera/parcels/CDH-4.3.0-1.cdh4.3.0.p0.22/lib/hadoop-mapreduce/hadoop-streaming.jar")hdfs.init()ints=to.dfs(1:100)calc=map

hadoop - 运行 WordCount v1.0 示例时 part-00000 中没有输出

我是Cloudera和Hadoop的新手,ClouderaWordCount1.0示例(part-00000)的输出为空。我使用的步骤和文件是here.我想提供任何有帮助的工作日志信息,同上版本-我只需要一些关于在哪里可以找到它们的指导。以下是作业输出和来源。在写入的其他部分(part-00001到part-00011)中,非空部分是part-00001(再见1)、part-00002(Hadoop2)、part-00004(再见1)、part-00005(世界2),和part-00009(你好2)。任何帮助都会很棒。命令和输出如下:[me@server~]$hadoopfs-cat/