草庐IT

hadoop MapReduce 随机播放错误 : Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

我在尝试使用多个输入文件运行MapReduce作业时遇到以下错误。尽管我可以只使用一个输入文件来运行MapReduce作业。我浏览了一些帖子,几乎每个人都说存在防火墙问题或未在/etc/hosts文件中正确设置主机名。即使是这种情况,无论输入是单个文件还是目录(多个文件),我的MapReduce作业都会失败下面是控制台的输出。INFOinput.FileInputFormat:Totalinputpathstoprocess:2WARNutil.NativeCodeLoader:Unabletoloadnative-hadooplibraryforyourplatform...usin

bash - 在 bash 脚本中使用 expr 时 hadoop 流式传输出错

我正在使用Hadoop流处理工作。我的映射器是用bash编写的。它使用job_id。mapred_job_id=`echo"$mapred_job_id"|awk-F"_"'{print$NF}'`它工作正常(为调试目的启动一个愚蠢的wordcound映射器操作)直到我有以下行导致作业崩溃:mapred_job_id=`expr$mapred_job_id\*2`错误是:INFOmapreduce.Job:TaskId:attempt_1432766867252_0019_m_000007_0,Status:FAILEDError:java.lang.RuntimeException:

java - 错误: org. apache.hadoop.mapred.InvalidInputException:输入路径不存在

我是nutch和solr集成方面的新手。我想抓取新的url,所以我在ubuntu中安装了solr4.6.0版和nutch1.6版。首先我从一些配置开始,但我仍然得到这个错误:org.apache.hadoop.mapred.InvalidInputException:Inputpathdoesnotexist:File:/home/cloudera/apache-nutch-1.6/bin/20150529030452/crawl_fetchInputpathdoesnotexist:file:/home/cloudera/apache-nutch-1.6/bin/2015052903

Hadoop - 映射器不发出任何东西

我正在运行下面的代码,但没有生成任何输出(好吧,输出文件夹和reducer输出文件已创建,但part-r-00000文件中没有任何内容)。从日志中,我怀疑映射器没有发出任何东西。代码:packagecom.telefonica.iot.tidoop.mrlib;importcom.telefonica.iot.tidoop.mrlib.utils.Constants;importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;im

python - Hadoop 2.7 : MapReduce task's total time using streaming API

我在本地集群上运行Hadoop2.7.1(所有节点都运行Ubuntu14.x或更高版本)。我的mapreduce程序是用Python编写的,我正在使用流式API来运行任务。我想找出所有节点上的所有映射任务所花费的总时间。怎么做?我找不到作业文件。(可能从Hadoop2.x开始删除)。 最佳答案 如果您正在寻找在所有任务中花费的所有聚合时间总和,您可能需要查看计数器。这些可以在作业历史服务器上查看,也可以在深入了解单个作业后单击左侧的Counters,或者您可以使用mapredjob命令以编程方式更多地执行此操作,例如,要打印出SUC

java - Amazon EMR 中的 org.apache.hadoop.mapred.FileAlreadyExistsException

我正在尝试在AmazonEMR中运行WordCount程序,但我收到错误消息:Exceptioninthread"main"org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectorys3://mywordcountbuckett/run0alreadyexistsatorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:146)atorg.apache.hadoop.mapre

hadoop - 必须具有 core-site hdfs-site mapred-site 和 yarn-site.xml 的属性

谁能告诉我Core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml必须具备的属性,没有这些属性hadoop就无法启动? 最佳答案 以下设置适用于Hadoop2.x.x的独立和伪节点设置。核心站点.xmlfs.default.namehdfs://localhost:9000hdfs-site.xmldfs.replication1dfs.name.dirfile:///home/hadoop/hadoopdata/hdfs/namenodedfs.data.dirfile:/

java - Hadoop input.FileSplit 不能大小写为 mapred.FileSplit

我正在尝试使用以下代码在HadoopMapper中获取文件名:FileSplitfileSplit=(FileSplit)context.getInputSplit();Stringfilename=fileSplit.getPath().getName();我导入的库是:importorg.apache.hadoop.mapred.FileSplit;我得到异常:org.apache.hadoop.mapreduce.lib.input.FileSplitcannotbecasttoorg.apache.hadoop.mapred.FileSplit有人可以帮忙吗?

java - 在 org.apache.hadoop.mapred.MapTask$NewOutputCollector 关闭期间忽略异常

我创建了一个hadoop自定义可写对象,如下所示publicclassResultTypeimplementsWritable{privateTextxxxx;privateTextyyyy;privateTextzzzz;publicResultType(){}publicResultType(Textxxxx,Textyyyy,Textzzzz){this.xxxx=xxxx;this.yyyy=yyyy;this.zzzz=zzzz;}publicTextgetxxxx(){returnthis.xxxx;}publicTextgetyyyy(){returnthis.yyyy;

java - Hadoop Map/Reduce WARN mapred.LocalJobRunner : job_local_0001 java. io.EOFException?

在Eclipse6.91中运行Hadoop0.20.2M/R应用。我在执行后收到这些错误和警告:13/07/2416:52:52INFOjvm.JvmMetrics:InitializingJVMMetricswithprocessName=JobTracker,sessionId=13/07/2416:52:52WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.13/07/2416:52:52WARNmapred.Jo