草庐IT

MapReduce2

全部标签

hadoop - mapreduce 程序输出重复?

我的输出中有很多重复的值,所以我实现了一个reduce函数,如下所示,但是这个reduce仍然作为一个恒等函数工作,也就是说,即使我有或没有reduce,输出也没有区别。我的reduce函数有什么问题?publicclasssearch{publicstaticStringstr="And";publicstaticclassMapextendsMapReduceBaseimplementsMapper{Stringmname="";publicvoidconfigure(JobConfjob){mname=job.get(str);job.set(mname,str);}privat

mongodb - Hadoop 中的增量 MapReduce(使用 mongodb-hadoop 适配器)

我想在Hadoop中进行mapreduce工作,在MongoDB中获取并保存结果,感谢mongo-hadoop连接器。有没有一种方法可以像在MongoDB中那样在hadoop中执行增量mapreduce?Ifdocumentsexistsforagivenkeyintheresultsetandintheoldcollection,thenareduceoperation(usingthespecifiedreducefunction)willbeperformedonthetwovaluesandtheresultwillbewrittentotheoutputcollection.

hadoop - 在使用 MapReduce 执行字数统计时,是否可以在 map 函数中将数据拆分为字词?

我找到了大量的文档和示例,但我认为如果拆分是在map()函数中完成的,这将无法利用分布式系统的强大功能。我的分析是否正确? 最佳答案 输入文件被分割并分布在整个服务器集上,允许并行映射执行。您还希望利用映射输出的分区来实现将每个单词的计数收集到一个服务器(分区)上所需的排序。通过这种方式,实际的单词计数也可以并行进行。 关于hadoop-在使用MapReduce执行字数统计时,是否可以在map函数中将数据拆分为字词?,我们在StackOverflow上找到一个类似的问题:

hadoop - 如何与 amazon elastic mapreduce 共享 jar 库?

为了加快jar到s3的上传速度,我想将我所有常用的jar复制到普通hadoop中的“$HADOOP_HOME/lib”之类的地方。我是否可以创建预安装这些库的自定义EMRhadoop实例。或者有更简单的方法? 最佳答案 您可以将此作为引导操作来执行。这就像放置一个脚本来复制到S3一样简单,然后如果您从命令行启动EMR,请添加如下参数:--bootstrap-action's3://my-bucket/boostrap.sh'或者,如果您通过网络界面执行此操作,只需在相应字段中输入位置即可。

hadoop - 运行 MRUnit 时出现 java.lang.NoSuchMethodError : org. apache.hadoop.mapreduce.TaskAttemptID

我正在尝试使用Clouderahadoop发行版开发mr-job。我正在使用api版本2。我确实遇到了mr-unit的麻烦。请建议该怎么做。我已经使用了标准的原型(prototype)并且完全迷失了,我不明白问题的根源在哪里。这是我的依赖项:com.cloudera.hadoophadoop-core0.20.2-320providedcom.cloudera.hadoophadoop-mrunit0.20.2-320test这是我的测试代码:@TestpublicvoidtestEmptyOutput()throwsException{for(Stringline:linesFrom

java - 如何对 hadoop mapreduce 作业的键使用相似度算法

我需要实现以下问题:我正在获取类型的数据publicclassData{privateStringkey;privateStringvalueData;}我需要编写一个mapreduce作业来获取所有unique键,每个键都有一个(随机)valueData。对于hadoop来说听起来很简单,是的,我知道如何实现它。但真正的问题是,我还需要减少所有“similar”键。并且输出应该是与dataValue之一相似的key之一在hadoop中实现它的最佳方式(以及如何)是什么?我还希望能够灵活地更改相似度算法。 最佳答案 看看MinHas

hadoop - Pig Mapreduce 计算连续的字母

我需要数字母而不是数单词。但是我在使用ApachePig版本0.8.1-cdh3u1实现这个时遇到了问题给定以下输入:989;850;abcccc29;395;aabbcc输出应该是:989;850;a;1989;850;b;1989;850;c;429;395;a;229;395;b;229;395;c;2这是我尝试过的:A=LOAD'input'usingPigStorage(';')as(x:int,y:int,content:chararray);B=foreachAgeneratex,y,FLATTEN(STRSPLIT(content,'(?A、B和C可以转储,但“转储D”

hadoop - 具有数据挖掘功能的 MapReduce 项目

我计划做一个涉及Hadoop库的MapReduce项目,并在AWS上传的大数据上对其进行测试。我还没有最终确定一个想法。但我确信它会涉及某种数据处理、MapReduce设计模式以及可能的图形算法、Hive和PigLatin。如果有人能给我一些想法,我将不胜感激。我的想法很少。最后我必须处理一些大型数据集并获取一些信息并得出一些结论。为此,我之前使用Weka进行数据挖掘(使用树)。但我不确定这是否是我现在唯一可以使用的东西(使用Weka)。有没有其他方法可以让我处理大数据并从大数据集得出结论?另外,我怎样才能在其中涉及图表?基本上我想做一个研究项目,但我不确定我到底应该做什么以及它应该是

hadoop - 如何指定 Hadoop MapReduce 作业生成的目录的权限?

当我运行HadoopMapReduce作业时,生成的所有目录都使用“rwxr_xr_x”作为权限。我想将它们更改为“rwxrwxrwx”,该怎么做? 最佳答案 您可以使用hadoopfs-chmod777your/directory在事后更改它。或者在运行作业之前创建目录,并相应地设置它们的权限。您还可以设置dfs.umask值,该值将管理创建目录时使用的权限。参见http://hadoop.apache.org/docs/r0.20.2/hdfs_permissions_guide.html

hadoop - 什么时候应该关闭 MapReduce 作业中的 HTablePool?

我正在尝试使用HTablePool来减少HTable实例的创建。但是,我不知道应该将HTablePool.close()放在我的映射器/缩减器中的什么地方。应用运行时,会调用多个mappers、reducer,可以运行在多台机器上。为了获得最佳性能,我认为每台机器应该有一个HTablePool并且close()调用应该延迟到整个应用程序关闭。但是我们如何告诉这些机器关闭它们的池?欢迎任何建议! 最佳答案 在Map/Reduce作业的上下文中,我认为使用HTablePool不会给您带来显着的改进。HTablePool带给你的是:线程安