草庐IT

mr_collection

全部标签

使用 0.23 版本(MRv2 或 NextGen MR)设置的 Hadoop 集群

我看到hadoop的最新稳定版本是0.20.x。最新版本是0.23.。从.20.到0.23.x似乎有很多变化。我们能够建立具有稳定版本(0.20.2)的小型集群并练习mapreduce编程。我们已经看到在0.23.x中添加了许多新的API。为了探索0.23.x,我们还需要使用0.23.x版本设置集群。你们能给我们一份文档吗,我们可以在其中设置0.23.x版本的集群。当我解压tar文件时,0.23.x似乎完全不同,它不像0.20.x。请给我们一些书籍引用/文档,其中从一开始就提到了集群设置。谢谢MRK 最佳答案 0.23和pre-0.

hadoop - 如何在 outputcollector.collect 中返回浮点值?

在计算输出的数字平均值后,我无法返回flaot值。收集..任何人都可以帮助我吗??公共(public)静态类MapClass扩展了MapReduceBase实现映射器{privateTextword=newText();publicvoidmap(LongWritablekey,Textvalue,OutputCollectoroutput,Reporterreporter)throwsIOException{Stringline=value.toString();Stringnum=Integer.parseInt(num);IntWritableone=newIntWritable

java - Hadoop MR 在 reduce 方法中保持数组引用

我想要一个arrayList来保存对reduce函数中对象的引用。@Overridepublicvoidreduce(finalTextpKey,finalIterablepValues,finalContextpContext)throwsIOException,InterruptedException{finalArrayListbsonObjects=newArrayList();for(finalBSONWritablevalue:pValues){bsonObjects.add(value);//dosomecalculations.}for(finalBSONWritabl

scala - 错误 : value saveAsTextFile is not a member of scala. collection.Map[String,Long]

我尝试了所有可能的方法,通过导入所有可能的库并检查与saveAstextFile或saveAsSequenceFile相关的所有问题的答案甚至没有帮助。因此启动一个新线程。我收到错误消息“错误:值saveAsTextFile不是scala.collection.Map[String,Long]countResult.saveAsTextFile("tmp/testfile")的成员。在尝试将rdd保存到HDFS。我正在按照以下步骤操作。1.scala>importorg.apache.spark.SparkFilesimportorg.apache.spark.SparkFiles2.

scala - 在 Scala 中调用 collect() 函数时出现异常

我试图编写自定义代码来比较源模式(SAS)和目标模式(Hive)的数据类型。在SAS中,我们有不同的数据类型。例如对于日期时间,数据类型定义为Num,格式定义为DateTime20.(例如)。在Hive中,此数据类型等效于Timestamp。因此我的源架构文件如下所示:source.csv文件S_No,Variable,Type,Len,Format,Informat6,EMP_HOURS,Num,8,15.2,15.14,EMP_NAME,Char,50,,1,DATETIME,Num,8,DATETIME20.,DATETIME20.5,HEADER_ROW_COUNT,Num,8

hadoop - map() 函数的调用次数与 MR Job 发出的 map 任务数之间的关系

我写了一个MR程序来估计PI(3.141592.........)如下,但是我遇到了一个问题:框架发出的map任务数是11,下面是输出(总共35行)。但我预计输出是11行。有什么我想念的吗?圆圈78534096围圈78539304圈子78540871围圈78537925圈子78537161圈子78544419围圈78537045圈子78534861圈子78545779圆圈78528890围圈78540007围圈78542686圈子78534539圈子78538255圈子78543392圈子78543191围圈78540938圈子78534882围圈78536155圈子78545739围

hadoop - 没有 hadoop 但有其他 MR 实现的 mahout

在Mahout中用不同的map-reduce实现(例如,内存中的map-reduce实现)替换hadoop是否容易?Mahout并行ML实现是否与Hadoop紧密结合且不可替代? 最佳答案 (用Java命名另一个MapReduce实现?)不,它与Hadoop紧密绑定(bind)。但是,Hadoop可以在本地运行。在内存中就像不使用磁盘一样?这听起来甚至不是分布式的,那么为什么要使用MapReduce?并非所有Mahout都使用Hadoop。这真的是您想要的吗? 关于hadoop-没有ha

hadoop - Hadoop Fair/Capacity Scheduler 可以用在 MR1 上吗?

据我所知,YARN(MRv2)允许插入调度程序,替换默认的FIFO调度程序。我的问题是,我们可以在MRv1中做同样的事情吗?有没有办法在旧版本的Hadoop中替换FIFO调度程序,或者这是仅随YARN提供的东西? 最佳答案 我在Hadoop的0.20.x版本中使用公平调度程序已有一段时间了,从未遇到过任何问题。您可以设置以下属性:mapred.jobtracker.taskSchedulerorg.apache.hadoop.mapred.FairScheduler然后您可以转到http:///scheduler有关如何在MR1中设

Hadoop JAVA MR作业

大家好,我是HadoopMR的新手。我尝试编写一个简单的MR作业来计算节点到其目标节点的最短路径。基本上逻辑是这样的:如果输入文本文件具有以下给定路径:ABCDABDACD床BDBACD输出应该是:ABDBD这只是给出了节点A和D之间的最短路径以及B和D之间的最短路径。我得到的输出是:[ABCDABDACDBEDBDBACD]我写了下面的MR来做同样的事情。但它没有给出所需的答案。我在独立模式下运行MR。请告诉我代码有什么问题以及解决方法。非常感谢您的宝贵时间。publicclassShpath{publicstaticclassMapextendsMapReduceBaseimple

java - HADOOP - 减少简单 MR 作业的阶段挂起

这是一个简单的mapreduce作业。最初这只是将输入目录中的文件复制到输出目录的一种简单方法。Map阶段完成,但reduce阶段只是挂起。我究竟做错了什么?这是少量代码,这是整个工作:importjava.io.IOException;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.*;importorg.apache.hadoop.mapreduce.Job;importorg.apache.hadoop.mapreduce.M