草庐IT

mapreduce_shuffle

全部标签

algorithm - 哪些类型/类别的算法可以在 MapReduce 范例中重铸?

一些“快速问题”:哪些类型/类别的算法可以在MapReduce范例中重铸?(例如k-means有一个MR实现)有没有不能这样表达的?哪些算法特征使它们在MR范式中reshape时不那么有吸引力/复杂性在此先感谢您的帮助。最大 最佳答案 我正在为来自MPI世界的一组大数据算法解决这些相同的问题。这是我的看法。MR配方的基本流程似乎是扩展/收缩。该映射应用于一个大集合,可能会创建一个更大的集合,然后使用reduce对该集合进行排序/组织,以便它可以聚合成一个合并的数据集,最好小得多。您需要的map和reduce数量是MR算法的聪明之处。

Hadoop mapreduce 程序失败,退出代码为 127

尝试运行一些hadoop程序。我看到NameNode、Datanode、Yarn集群URL启动并运行。即127.0.0.1:50070/dfshealth.jsp、localhost:8088/cluster/cluster等但是当我尝试运行我的mapreduce程序时:$hadoopMySampleProgramhdfs://localhost/user/cyg_server/input/myfile.txthdfs://localhost/user/cyg_server/output/op程序失败并显示日志:INFOmapreduce.Job(Job.java:monitorAnd

hadoop - mapreduce ---自定义数据类型

在做mapreduce程序的时候,遇到key是元组(A,B)(A和B都是整数集合),如何自定义这种数据类型?publicstaticclassMapClassextendsMapper....publicclassTupleimplementsWritableComparable{@OverridepublicvoidreadFields(DataInputarg0)throwsIOException{//TODOAuto-generatedmethodstub}@Overridepublicvoidwrite(DataOutputarg0)throwsIOException{//TO

hadoop - Sqoop 导入问题 - java.lang.IncompatibleClassChangeError : Found class org. apache.hadoop.mapreduce.JobContext,但接口(interface)是预期的

我正在使用Sqoop1.4.3与hadoop1.2.4和hive0.11.0当我尝试执行sqoop导入时:它抛出了IncompatibleClassChangeError。任何解决这个问题的建议..使用的Sqoop命令:sqoopimport--connectjdbc:mysql://localhost:3306/employees\--usernametest--passwordtest跟踪:Exceptioninthread"main"java.lang.IncompatibleClassChangeError:Foundclassorg.apache.hadoop.mapredu

java - 如果我使用 org.apache.hadoop.mapreduce(新)API,如何配置 Hadoop MapReduce 映射器输出压缩?

是否可以在新的mapreduceAPI上打开映射器输出压缩?如果可以,请指出如何操作?我看到很多基于hadoop.mapred.JobConfAPI的示例,但没有针对mapreduceAPI的示例。如果它不能通过newAPI配置,我可以做些什么让它工作吗? 最佳答案 您可以使用以下代码启用map输出压缩:publicstaticvoidenableMapOutputCompress(Jobjob){job.getConfiguration().setBoolean("mapred.compress.map.output",true)

hadoop - CDH Hadoop 中 json Serde JAR 与 Hive/Hue/MapReduce 一起使用的最佳位置

我正在使用Hive/Hue/MapReduce和jsonSerde。为了让它工作,我将json_serde.jar复制到每个集群节点上的几个lib目录:/opt/cloudera/parcels/CDH/lib/hive/lib/opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/lib/opt/cloudera/parcels/CDH/lib/hadoop/lib/opt/cloudera/parcels/CDH/lib/hadoop-0.20-mapreduce/lib...在集群的每次CDH更新中,我都必须再次执行此操作。是否有更优雅的方式

java - MapReduce 新 API Job.getInstance(Configuration, String) 的 Jar 文件

已安装Hadoop2.2。尝试删除已弃用的APIJobjob=newJob(conf,"wordcount");来自Wordcount示例(Hadoop附带)here将已弃用的API替换为编辑:Jobjob=Job.getInstance(conf,"wordcount");编译错误为Job.getInstancecannotberesolvedtoatype.已经导入的Job类(旧API或MR1)似乎没有此方法。哪个jar包含带有Job.getInstance(Configuratio,String)方法的新Job类如何解决?迁移到MapReducev2的示例是否有任何其他更改?

hadoop mapreduce - 用于获取作业日志的 API

我正在开发一个hadoopmapreduce应用程序,我需要向最终用户显示任务日志。(与色调相同)。是否有提取特定作业日志的java-api?我尝试了“JobClient”API但没有成功。 最佳答案 JobAttemptsAPI的HistoryServer提供指向每个任务日志的链接 关于hadoopmapreduce-用于获取作业日志的API,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/ques

Hadoop - 错误 : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext

我正在使用hadoop设计mapreduce作业。我决定创建一个自定义的InputFormat。当我想在我的Hortonworks沙盒上运行该作业时,出现了这个错误:Error:Foundinterfaceorg.apache.hadoop.mapreduce.TaskAttemptContext,butclasswasexpected根据论坛上的一些主题(如here),这是一个版本问题:在Hadoop2.x中,TaskAttemptContext是一个接口(interface),之前它是一个类。这是我的pom.xml文件:junitjunit4.4org.apache.hadooph

web-applications - 使用 mapreduce 编程的 Web 应用程序中的图形(折线图、饼图)

你好friend,我正在开发一个web应用程序,我需要编写一个mapreduce代码来处理来自Hadoop分布式文件系统的数据,并在reducer输出的基础上绘制各种图形,所以我在eclipse中用Java开发应用程序,所以我怎样才能做到这一点? 最佳答案 我建议您尝试使用配置单元。在包含reducer文件输出的ehive表上创建。使用JDBC或ODBC连接将数据从配置单元拉到您的前端,并使用您的图形表示形式(如饼图)。 关于web-applications-使用mapreduce编程的