草庐IT

mapreducer

全部标签

Hadoop MapReduce 全局计数器

我的应用程序中需要一个全局计数器。当所有reduce任务完成后,我必须打印全局计数器。我在Here中找到了解决方案.但是,我想知道在使用C++编写应用程序时是否可以将全局计数器与Hadoop流或管道一起使用。 最佳答案 您可以使用流进程的stderr输出。我发现了这个Jira问题:https://issues.apache.org/jira/browse/HADOOP-1328它有几个补丁,我想你可以在其中找到关于如何做全局计数器的内容。 关于HadoopMapReduce全局计数器,我

java - 在 mapreduce 作业中对单独的行应用 wordcount

我有一个像这样的输入文件LOWLOWHIGHLOWLOWLOWHIGHMODLOWLOWHIGHLOWHIGHHIGHHIGHLOWLOWLOWLOWLOW..........我希望得到如下结果:GenuineModerateNot_genuineGenuine..为此,我需要解析一行并在每一行上应用WordCount,然后基于编号。高或低的计数我会指定所需的结果。通过使用Stringtokenizer所有的行都被考虑在内并且split方法没有得到行的结尾(\n)。无论如何我可以继续解决这个问题并得到想要的答案为MAPPER完成的代码这是我尝试通过获取\n进行修改的映射器函数publi

matlab - 在matlab中使用mapreduce编程技术

我正在研究老鼠的超声波发声(它们在超声波中的讲话)。我有几个老鼠演讲的音频wav文件。理想情况下,我会将整个文件导入matlab并对其进行处理,但即使是最小的70mb文件,我也会遇到内存问题。这就是我需要帮助的。[y,Fs,nbits]=audioread('T0000201.wav');[SFT]=频谱图(y,100,[],256,Fs,'yaxis');......程序的其余部分我可以考虑将音频(在一个文件中)分成多个block,并在考虑下一个block之前处理该block,但我不确定如果ratcalls在中途被切断的情况下我会怎么做,在block的末尾(这可能会对STFT频谱图产

java - MapReduce 作业挂起

我是Hadoop的MapReduce新手。我写了一个mapreduce任务,我想在我的本地机器上运行它。但工作在map100%后挂起。下面是代码,我不明白我错过了什么。我有一个自定义键类importorg.apache.hadoop.io.Text;importorg.apache.hadoop.io.WritableComparable;publicclassAirlineMonthKeyimplementsWritableComparable{TextairlineName;Textmonth;publicAirlineMonthKey(){super();}publicAirli

java - MapReduce 权限 0700 错误

在Eclipseluna中运行mapreducejar文件时出现错误。我已经使用Cygwin设置了我的HBASE和HADOOP。这是来自Eclipse控制台的错误消息:15/03/2316:02:01INFOmapreduce.TableOutputFormat:CreatedtableinstanceforTWEETS_TIMEWISE15/03/2316:02:03INFOmapred.JobClient:Runningjob:job_201503231018_000915/03/2316:02:04INFOmapred.JobClient:map0%reduce0%15/03/2

hadoop - 为什么 hadoop yarn mapreduce 作业不工作并停止运行作业?

我有一个mapreduce作业,我用YARN模式运行它。但是为什么我的mapreduce作业在运行作业步骤时停止而不继续?是这样的:15/04/0417:18:21INFOimpl.YarnClientImpl:Submittedapplicationapplication_1428142358448_000215/04/0417:18:21INFOmapreduce.Job:Theurltotrackthejob:http://master:8088/proxy/application_1428142358448_0002/15/04/0417:18:21INFOmapreduce.

hadoop - 在 MapReduce 中写入多个 O/P 文件时出现问题

我需要根据过滤条件将我的输入文件拆分为2个输出文件。我的输出目录应如下所示:/hdfs/base/dir/matched/YYYY/MM/DD/hdfs/base/dir/notmatched/YYYY/MM/DD我正在使用MultipleOutputs类在我的map函数中拆分我的数据。在我的驱动程序类中,我使用如下:FileOutputFormat.setOutputPath(job,newPath("/hdfs/base/dir"));我在下面使用的Mapper中:mos.write(key,value,fileName);//FileNameisgeneratingbasedon

hadoop - 连接异常 : Connection refused when run mapreduce in Hadoop

我在多机模式下设置了Hadoop(2.6.0):1个名称节点+3个数据节点。当我使用命令:start-all.sh时,它们(名称节点、数据节点、资源管理器、节点管理器)工作正常。我用jps命令检查了它,每个节点上的结果如下:名称节点:7300ResourceManager6942NameNode7154SecondaryNameNode数据节点:3840DataNode3924NodeManager我还在HDFS上上传了示例文本文件:/user/hadoop/data/sample.txt。那一刻绝对没有错误。但是当我尝试使用hadoop示例的jar运行mapreduce时:hadoo

hadoop - sqoop hadoop-mapreduce 不存在

我在sqoop上运行导入命令,但遇到以下问题。有人可以帮我解决这个问题吗。错误:/usr/local/sqoop-1.4.5.bin__hadoop-2.0.4-alpha/bin/../../hadoop-mapreduce不存在!请将$HADOOP_MAPRED_HOME设置为您的HadoopMapReduce安装的根目录。我的bashrc:exportJAVA_HOME=$(/usr/libexec/java_home)exportHADOOP_HOME=/usr/local/Cellar/hadoop/2.6.0/libexecexportHADOOP_YARN_HOME=$H

hadoop - MapReduce 工作卡住了

我是hadoop的新手。我在ubuntu12.04上使用cloudera管理器安装了clouderahadoop。当我尝试使用cloudera的“测试安装”文档下给出的命令测试我的安装时,我的mapreduce作业卡在了接受阶段,并且永远不会从那里继续。我必须杀死工作。这是我正在使用的命令:sudo-uhdfshadoopjar/usr/lib/hadoop-mapreduce/hadoop-mapreduce-examples.jarpi101在hue作业浏览器中,作业状态已被接受。我们将不胜感激任何形式的帮助。提前致谢。 最佳答案