reduce_dim

r - 如何在Rhadoop中的rmr map reduce中捕获R后台代码

我是RHadoop的新手。我能够使用Hadoop运行rmr包的mapreduce功能。基本上在后台R在Java中运行这个映射减少代码。意思是R把这个R的mapreduce代码转成Java，所以能不能在运行mapreduce的时候得到java后台代码。谁能帮帮我？最佳答案在Rhadoop中，R并没有将RMapReduce代码转换为java。Rhadoop提供了MapReduce接口(interface)；mapper和reducer可以用R代码描述，然后从R中调用。RhadooppackagewillsubmitRcodetoHa

何在 Rhadoop section streaming Hadoop r mapreduce

hadoop - 如何从 reducer 中获取一个键值对作为输出

我是HadoopMapreduce的新手。我有一个要求，假设我想找到分数最高的学生姓名。考虑样本数据集哈利数学80哈利物理学67雏菊科学89雏菊物理90格雷格数学70格雷格化学79我知道reducer会遍历每个唯一键，因此我将获得3个输出键值对，其中包含名称和总分。但我需要总分最高的学生姓名，即。reducer输出->Daisy179以下是我写的reduce函数:staticintmaxMark=0;staticTextname=newText();publicstaticclassReduceextendsMapReduceBaseimplementsReducer{publicvo

reducer hadoop section IntWritable mapreduce

hadoop - 强制 Hadoop 运行具有多个 reducer 的应用程序

我有一个HadoopMap-reduce应用程序，其代码中包含以下行(将reducer的数量设置为1)。job.setNumReduceTasks(1)我想用多个reducer运行这个应用程序，所以我尝试将以下XML代码添加到$HADOOP_CONF_DIR/mapred-site.xmlmapreduce.job.reduces2但是，代码仍然使用1个reducer运行。有没有办法强制hadoop应用程序与2个reducer一起运行，或者应用程序代码的优先级是否总是更高？最佳答案在这种情况下，您需要修改代码，因为对job.se

reducer hadoop section code configuration mapreduce reduce hadoop-yarn

java - Hadoop:测量每个阶段的持续时间(map、shuffle/sort、reduce)

有一个非常相似的问题我想知道。HowcanImeasurethedurationofeachphase(map,shuffle/sort,reduce)inHadoop?答案是tasktracker的web/ui显示应用程序的每个持续时间。但是我的环境是hadoop-2.2.0，没有tasktracker。所以tasktrackerweb/ui"localhost:50030/tasktracker.jsp"不工作。我猜答案只适用于较低版本的hadoop(1.x.x)。我如何测量hadoop-2.x.x版本中每个阶段(map、shuffle/sort、reduce)的持续时间？是否有任

shuffle Hadoop section tasktracker reduce java

ruby-on-rails - 使用 map-reduce 进行视频转换

我有一个RubyonRails应用程序，用户可以在其中上传视频，我正在寻找一个系统来将用户上传的视频转换为FLV格式。目前我们正在使用FFMPEG并且由于视频转换是一项繁重的任务，它似乎需要花费大量时间和大量CPU资源..我们正在研究是否可以使用map-reduce/Hadoop框架来实现视频转换，因为它是完全分布式的。使用map-reduce进行实时视频转换是不是一个好的选择？如果是这样，如何实现？注意:每个视频文件大小约为50-60MB。最佳答案您的要求是“实时”转换。请记住，Hadoop是一个“批处理框架”。恕我直言，我认

ruby-on-rails map-reduce section Storm Hadoop video ffmpeg mapreduce

java - 运行 Hadoop Map Reduce 作业，错误 : Unsupported major. 次要版本 51.0

我正在使用hadoop2.2.0在AmazonWebServicesRedHat6.4上运行map-reduce作业。我正在使用的Jar文件是在我的本地Windows7计算机上构建的。mapreduce作业在我的Windows7机器上本地安装的Hadoop上运行良好，但是当我尝试在Amazon实例上运行它时，我收到以下错误:Exceptioninthread"main"java.lang.UnsupportedClassVersionError:mapReduce/TestXMLConfig:Unsupportedmajor.minorversion51.0atjava.lang.Cl

次要 Unsupported java ClassLoader URLClassLoader eclipse hadoop amazon-web-services

hadoop - 我们能否将我们的 HDFS 数据或 Map Reduce 输出显示为 HTML 表单或 JSP 页面？

是否可以将我们的HDFS数据或MapReduce输出显示为HTML表单或JSP页面？如果是，那么如何？最佳答案在web服务和J2EE项目的帮助下，使用Hadoop文件系统api(引用here)来cathdfs文件，您可以在网页中显示结果。但是，请记住您正在处理的数据大小，巨大的数据(TB和PB)也会影响您的网络应用内存。关于hadoop-我们能否将我们的HDFS数据或MapReduce输出显示为HTML表单或JSP页面？，我们在StackOverflow上找到一个类似的问题：

hadoop Reduce section strong hdfs

java - 在 eclipse 中调试 map reduce 作业

我想使用eclipse调试Map-reduce作业(pig、hive)。也就是说，在hadoop源java文件中设置断点并在运行map-reduce作业时检查元素。为此，我使用eclipse启动了所有服务，并且可以调试一些类文件。但是我不能创建一个完整的调试环境。谁能告诉我怎么做？最佳答案我不知道有什么eclipse工具可以满足您的需求。如果您正在寻找可能的解决方案，以下将适用于java。importjava.util.logging.Logger;为了调试javamapreduce文件，您可以为每个类(驱动程序、映射器、red

eclipse reduce section code java hadoop mapreduce

hadoop - 如何执行一对多 map-reduce 连接？

当我们有:文件1personid1,name1personid2,name2文件2personid1,address2文件2personid2,address2我想要reducer输出personid1,name1,address2personid2,name2,address2 最佳答案您似乎可以使用personid作为映射器的键。然后您将确保在一个reducer中获得属于一个personid的所有记录作为迭代器。现在您需要区分哪个记录来自哪个来源，因此最好将标识符放在值上。importorg.apache.hadoop.con

map-reduce hadoop apache import mapreduce bigdata

java - 当我在 Reducer 中读取它们时，Mapper 中发送的文本/字符串值是错误的

我正在Mapper中发送一些数据，当我尝试在Reducer中读取它们时，它们发生了一些变化。在简历中，我使用set函数填充数据，然后使用get函数在reducer中读取它们。我不明白为什么如果我执行println，数据会不同。我发送的数据在一个名为“ValorFechaHora”的类中，有3个变量Medicion、Fecha和Hora:publicclassValorFechaHoraimplementsWritable{ privateIntWritableMedicion; privateTextFecha; privateTextHora; publicvoidValorFec

Reducer Mapper Text Medicion section java hadoop mapreduce reduce-reduce-conflict

96 97 9899100 101 102