草庐IT

mapreduce_shuffle

全部标签

hadoop - 排队和Mapreduce

我看到大数据队列作业对实时工作具有高性能,因为它们产生的数据很容易被消费。Map/Reduce作业(hadoop)的高性能有一个不同的原因:它们是离线的并且允许大规模并行数据连接和聚合。但是,我想知道-是否有任何用于大数据摄取的系统能够结合实时数据馈送实现map/reduce样式的并行性?具体来说,这意味着(在hadoop中)允许读取、写入和聚合尚未完成的“部分”输出文件。 最佳答案 查看HStreaming哪个用户MR范式。我没用过,不知道优缺点。Commoncodebaseandtoolingforreal-timeandbat

hadoop - MapReduce 要求所有映射器在合并阶段之前完成

我最近不得不运行一项作业,要求所有映射器在将结果传递到组合阶段之前完成(由于处理文件的结构方式)。通过配置以下内容,reducer可以使用此功能-//force100%ofthemapperstoconcludebeforereducersstartjob.set("mapred.reduce.slowstart.completed.maps","1.0");我找不到合并阶段的任何类似配置。最终,我将我的工作分成了2个部分,组合阶段充当了reducer,而我的原始reduce传递给了作业#2(mapper2只是传递了数据而没有修改它)。我想知道-有没有一种方法我错过了在合并之前配置10

hadoop - Mapreduce - 无法获得正确的 key

您好,我正在编写mapreduce代码来查找最高温度。问题是我获得了最高温度但没有相应的key。publicstaticclassTemperatureReducerextendsReducer{Textyear=newText();intmaxTemperature=Integer.MIN_VALUE;publicvoidreduce(Textkey,Iterablevalues,Contextcontext)throwsIOException,InterruptedException{for(IntWritablevalTemp:values){maxTemperature=Mat

hadoop - mapreduce 程序输出重复?

我的输出中有很多重复的值,所以我实现了一个reduce函数,如下所示,但是这个reduce仍然作为一个恒等函数工作,也就是说,即使我有或没有reduce,输出也没有区别。我的reduce函数有什么问题?publicclasssearch{publicstaticStringstr="And";publicstaticclassMapextendsMapReduceBaseimplementsMapper{Stringmname="";publicvoidconfigure(JobConfjob){mname=job.get(str);job.set(mname,str);}privat

mongodb - Hadoop 中的增量 MapReduce(使用 mongodb-hadoop 适配器)

我想在Hadoop中进行mapreduce工作,在MongoDB中获取并保存结果,感谢mongo-hadoop连接器。有没有一种方法可以像在MongoDB中那样在hadoop中执行增量mapreduce?Ifdocumentsexistsforagivenkeyintheresultsetandintheoldcollection,thenareduceoperation(usingthespecifiedreducefunction)willbeperformedonthetwovaluesandtheresultwillbewrittentotheoutputcollection.

hadoop - 在使用 MapReduce 执行字数统计时,是否可以在 map 函数中将数据拆分为字词?

我找到了大量的文档和示例,但我认为如果拆分是在map()函数中完成的,这将无法利用分布式系统的强大功能。我的分析是否正确? 最佳答案 输入文件被分割并分布在整个服务器集上,允许并行映射执行。您还希望利用映射输出的分区来实现将每个单词的计数收集到一个服务器(分区)上所需的排序。通过这种方式,实际的单词计数也可以并行进行。 关于hadoop-在使用MapReduce执行字数统计时,是否可以在map函数中将数据拆分为字词?,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库?

为了加快jar到s3的上传速度,我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法? 最佳答案 您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单,然后如果您从命令行启动EMR,请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者,如果您通过网络界面执行此操作,只需在相应字段中输入位置即可。

hadoop - 运行 MRUnit 时出现 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.TaskAttemptID

我正在尝试使用Clouderahadoop发行版开发mr-job。我正在使用api版本2。我确实遇到了mr-unit的麻烦。请建议该怎么做。我已经使用了标准的原型(prototype)并且完全迷失了,我不明白问题的根源在哪里。这是我的依赖项:com.cloudera.hadoophadoop-core0.20.2-320providedcom.cloudera.hadoophadoop-mrunit0.20.2-320test这是我的测试代码:@TestpublicvoidtestEmptyOutput()throwsException{for(Stringline:linesFrom

java - 如何对 hadoop mapreduce 作业的键使用相似度算法

我需要实现以下问题:我正在获取类型的数据publicclassData{privateStringkey;privateStringvalueData;}我需要编写一个mapreduce作业来获取所有unique键,每个键都有一个(随机)valueData。对于hadoop来说听起来很简单,是的,我知道如何实现它。但真正的问题是,我还需要减少所有“similar”键。并且输出应该是与dataValue之一相似的key之一在hadoop中实现它的最佳方式(以及如何)是什么?我还希望能够灵活地更改相似度算法。 最佳答案 看看MinHas

hadoop - Pig Mapreduce 计算连续的字母

我需要数字母而不是数单词。但是我在使用ApachePig版本0.8.1-cdh3u1实现这个时遇到了问题给定以下输入:989;850;abcccc29;395;aabbcc输出应该是:989;850;a;1989;850;b;1989;850;c;429;395;a;229;395;b;229;395;c;2这是我尝试过的:A=LOAD'input'usingPigStorage(';')as(x:int,y:int,content:chararray);B=foreachAgeneratex,y,FLATTEN(STRSPLIT(content,'(?A、B和C可以转储,但“转储D”