Iterator-reducer

hadoop - 使用 HDFS+Map Reduce 的示例应用程序

我有一门学术类(class)“中间件”，它涵盖了分布式软件系统的不同方面，包括对[tag:DistributedFilesystem]等主题的介绍。这也涉及到hbase的介绍,hadoop,mapreduce,hiveql,piglatin.我想知道，我可以有一个试图整合上述技术的小项目吗？对于初学者，我知道vm由cloudera提供因为有hadoop的感觉并使用Eclipse进行游戏。我正在考虑实现一个接受事件流作为输入的应用程序，分析它并给出输出。我都有windows/linux在我的机器上i7处理器和4GbRam。请让我知道如何开始一切，欢迎对简单示例应用程序提出任何建议。

hadoop - 为什么最后一个 reducer 在合并步骤期间因 java 堆错误而停止

我不断增加reducer的数量，我发现除了一个reducer之外的所有reducer都运行迅速并完成了它们的工作，最后一个reducer只是在合并步骤挂起，并在其tasktracker日志中显示以下消息:Downtothelastmerge-pass,with3segmentsleftoftotalsize:171207264bytes...在这个语句停留很长时间后，它抛出一个java堆错误并开始一些清理，但没有完成。我将child.opts内存增加到3.5GB(无法超过此限制)并压缩了map输出。可能是什么原因？驱动代码如下:publicstaticvoidmain(String[]

reducer hadoop 34 Text String mapreduce hdfs cloudera

java - 在 Map Reduce 上实现 DBSCAN 需要帮助

我正在尝试在MR上实现DBSCAN并使用我粘贴在下面的链接中的直觉http://codingwiththomas.blogspot.com/2012/05/distributed-dbscan-intuition.htmlBestprogramminglanguagetoimplementDBSCANalgorithmqueryingaMongoDBdatabase?我的问题是如何计算初始距离矩阵。我不想运行hadoop作业只是为了计算距离矩阵并将其存储在内存中，因为这不是一个好的设计。有什么建议么。最佳答案感谢阅读我的博客。是

上实 DBSCAN section stackoverflow java hadoop mapreduce

hadoop - 在reducer的configure方法中调用progress或者增加counter

有可能吗？上下文:我的reducer配置方法需要从DistributedCache读取一组文件(总大小约为150MB)。但是，我不知道为什么hadoop需要这么长时间才能杀死一些reducer，尽管事实上有一些reducer已成功完成。我使用旧的API，我只能在配置方法中访问JobConfconf变量。我的想法是让reporter变量成为一个字段，然后我可以在配置方法中调用它。但似乎在调用reduce之前调用了configure。最佳答案转换您的代码以使用新的API!然后在setup()中，您可以访问context变量并调用pr

configure progress section code reducer hadoop

hadoop - 如何在级联中强制 reducer ？

获得一些只有reducer而不是mapper才有的好处。最佳答案在Google网上论坛中找到我的答案:使用GroupBy，在执行分组时，它总是会使用reducer:previousPipe=newGroupBy(previousPipe);//thisdoesaGrouponFields.All减少文件数量(耦合度较低的另一种选择)previousPipe=newGroupBy(previousPipe,newFields("rand"),newRandonNumGen(Fields.Args));其中newRandonNumG

中强何在 section code previousPipe hadoop mapreduce cascading

hadoop:在伪分布式环境下有多个reducer？

我是hadoop的新手。我已经在伪分布式模式下成功配置了一个hadoop设置。我希望有多个缩减程序，选项为-Dmapred.reduce.tasks=2(使用hadoop-streaming)。然而，仍然只有一个reducer。根据Google的说法，我确信mapred.LocalJobRunner将reducer的数量限制为1。但我想知道是否有任何解决方法来拥有更多的reducer？我的hadoop配置文件:[admin@localhoststring-count-hadoop]$cat~/hadoop-1.1.2/conf/core-site.xmlfs.default.nameh

下有 reducer gt lt hadoop mapreduce hadoop-streaming

eclipse - 无法在 Elastic map reduce 命令行工具中列出当前作业流程？

我已成功安装AmazonElasticMapReduce命令行工具。在列出当前作业流程时，使用以下命令$./elastic-mapreduce--list它抛出以下错误。Error:Requesthasexpired.Timestampdate:2013-07-09T02:48:00-07:00 最佳答案检查时间戳(即)主节点时间、机器时间应该相等。那么只有你会得到正确的回应。您可以通过putty查看您的主节点实例的时间戳。关于eclipse-无法在Elasticmapreduce命

作业流程 eclipse section code hadoop amazon-web-services mapreduce elastic-map-reduce

optimization - 如何在 awk 中编写优化的 reducer

我有下面的awkreducer程序，它在计算键值对中的值时运行良好。#!/bin/awk-fBEGIN{FS="\t";}{A[$1]+=$2;}END{for(iinA){printf("%s\t%d\n",i,A[i])}}上面的reducer效果很好，有没有什么优化的写法...？输入:APPLE1APPLE11ORANGE1ORANGE1MANGO1BANANA1111ORANGE11APPLE1BANANA1输出:APPLE3BANANA2MANGO1ORANGE35 最佳答案取决于您对优化的定义-您当前的解决方案是有限的

何在 optimization section code pre hadoop map awk reduce

hadoop - 生成适当数量的 reducer 输出

我正在运行一个简单的mapandreduceHadoop作业。mapred.reduce.tasks属性已由Hadoop管理员在mapred-site.xml文件中设置。假设它是25。现在，我的工作只产生4个不同的key，所以25个part-r-xxxx文件中只有4个是非空的，其余的是空文件。我该如何防止这种情况？我只想要与生成的key数量一样多的输出文件(我事先不知道)。谢谢。最佳答案我建议使用LazyOutputFormat:LazyOutputFormat.setOutputFormatClass(job,TextOutp

适当 reducer code section 中设 hadoop mapreduce output

hadoop - hadoop能否让mapper将部分数据发送给reducer，剩下的数据直接输出到HDFS？

正如标题所说，我有一个关于map-reduce的任务设计:经过思考，我认为只需要将部分数据(可能是10%的数据)送入reducer，剩下的数据直接输出到HDFS即可。然后最后，我只是合并了mapper和reducer的这两个输出文件(我必须得到一个关于这个总数据的统一文件或目录)。我认为，通过这样做，可以降低此任务运行的带宽成本。那么我的想法能实现吗？(我知道如何直接从mapper输出到HDFS，但这需要mapper既输出到HDFS又将数据发送到reducer) 最佳答案一种解决方案是使用MultipleOutputs'swrit

hadoop 送给 section code