草庐IT

mapreduce_shuffle

全部标签

hadoop - CDH5 中的 Oozie 不获取 mapreduce.job.counters.max

当我运行一个oozie工作流,该工作流运行创建超过120个计数器的mapreduce-action(120是允许的默认最大计数器数)时,我收到一条错误消息,提示“计数器太多”。我已将mapreduce.job.counters.max设置为高于120的数字,但oozie似乎没有接受它。我在CDH5.1上使用hadoop2.3有没有人遇到过这种情况? 最佳答案 解决方案是将以下内容添加到YARNServiceMapReduceAdvancedConfigurationSnippet(SafetyValve):mapreduce.job

hadoop - 如何在 MapReduce 作业中将文件添加到同一目录

我有一个MapReduce作业将每天执行几次的情况。我想做的是将结果存储到相同的输出目录中。我收到这个错误:org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectory我不确定如何将增量存储到同一个文件夹中,有没有我可以查看的示例? 最佳答案 当您将文件存储在hdfs中时,它会导致重复,因此您必须添加带有文件名的timesatmp,以便根据时间戳添加填充。添加文件名_$(日期+"%Y-%m-%d-%S")例如,当我们使用命令行在hdfs中添加文件时hadoop

java - Hbase 扫描与 Mapreduce 的动态计算

我需要计算HBase表的聚合。假设我有这个hbase表:'metadata'列族:M列:n这里的元数据对象有一个字符串列表类元数据{列出标签;我需要计算我考虑使用mapreduce或直接扫描hbase的标签的数量。结果必须即时返回。那么在这种情况下我可以使用哪个呢?扫描hbase并计算聚合或mapreduce?Mapreduce最终将扫描hbase并计算计数。使用这两种方法的优缺点是什么? 最佳答案 我怀疑你不知道HBase的优缺点,它不适合计算大型数据集的实时聚合。首先让我们说MapReduce本身是一个计划作业,您将无法即时返回

java - MapReduce 作业 : weird output?

我正在编写我的第一个MapReduce作业。事情很简单:只计算文件中的字母数字字符。我已经完成生成我的jar文件并运行它,但除了调试输出之外,我找不到MR作业的输出。你能帮帮我吗?我的应用类:importCharacterCountMapper;importCharacterCountReducer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.conf.Configured;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.Int

rmr2 mapreduce csv 列子集

我有一个非常大的CSV文件,其中包含42个变量和200000条记录。我想通过mapreduce(localbackend)处理它,但我总是得到以下错误:Error:cannotallocatevectorofsize15.6GbInaddition:Warningmessages:1:closingunusedconnection3(C:\Users\LSZL~1\AppData\Local\Temp\RtmpgJ2FXm\filea302f8a7363)2:Inpaste(rep(l,length(lvs)),rep(lvs,each=length(l)),sep=sep):Reac

java - mapreduce 作业未与 LocalJobRunner 一起运行

嘿伙计们,这听起来可能有点幼稚,但我是mapreduce的新手我正在实现一个mapreduce作业,我在map和reducesides中有一些sysout语句,只是为了查看map和reducesides中会发生什么,但是在作业完成后job.waitForCompletion()返回false作业失败了我试着调试它,但没有发现任何可疑的东西,所以把代码贴在这里CustomKey.javapackagecom.example.secondarysort;importorg.apache.hadoop.io.IntWritable;importorg.apache.hadoop.io.Tex

hadoop - amazon s3n 与 hadoop mapreduce 的集成不起作用

我正在尝试对存储在amazons3中的文件运行一些mapreduce作业。我看到了http://wiki.apache.org/hadoop/AmazonS3并按照它进行集成。这是我的代码,它为mapreduce作业设置输入目录FileInputFormat.setInputPaths(job,"s3n://myAccessKey:mySecretKey@myS3Bucket/dir1/dir2/*.txt");当我运行mapreduce作业时出现此异常Exceptioninthread"main"java.lang.IllegalArgumentException:WrongFS:s

java - Cassandra Hadoop MapReduce : java. lang.ClassCastException : java. util.HashMap 无法转换为 java.nio.ByteBuffer

我正在尝试使用ApacheCassandra创建mapreduce作业。输入日期来自cassandra,输出也转到cassandra。该程序尝试从名为tweetstore的表中选择所有数据,然后插入包含用户名的行数。这是mapreduce作业的主要类:packagecom.cassandra.hadoop;importjava.io.*;importjava.lang.*;importjava.util.*;importjava.nio.ByteBuffer;importorg.apache.commons.lang.StringUtils;importorg.apache.hadoo

hadoop - core-site.xml在mapreduce程序中的使用

我见过mapreduce程序使用/添加core-site.xml作为程序中的资源。core-site.xml是什么或如何在mapreduce程序中使用? 最佳答案 来自documentation,除非明确关闭,否则Hadoop默认指定两个资源,从类路径按顺序加载:core-default.xml:hadoop的只读默认值,core-site.xml:给定hadoop安装的站点特定配置Configurationconfig=newConfiguration();config.addResource(newPath("/user/had

java - 在 MapReduce 类中打印

我有这个MapReduce示例[1],我想在标准输出和日志文件中打印信息[3]。日志似乎没有打印任何东西。如何使我的map类打印输出?我还配置了yarn-site.xml以保留日志[2]。尽管日志保留在/app-logs目录中,但包含作业执行输出的userlogs目录会在作业执行结束时被删除。如何让MapReduce不删除userlogs目录中的文件?我正在使用Yarn。谢谢,[1]仅包含map部分的Wordcount示例。publicclassMyWordCount{publicstaticclassMyMapextendsMapper{Loglog=LogFactory.getLo