草庐IT

MPI_Reduce

全部标签

hadoop - Hadoop Map Reduce 代码的前 N ​​个值

我是hadoop世界的新手,正在努力完成一项简单的任务。任何人都可以告诉我如何通过仅使用Mapreduce代码技术来获取单词计数示例的前n个值吗?我不想为这个简单的任务使用任何hadoop命令。 最佳答案 您有两个明显的选择:有两个MapReduce作业:WordCount:计算所有的单词(几乎就是这个例子)TopN:一个MapReduce作业,用于查找某事物的前N​​个(这里有一些示例:sourcecode、blogpost)将WordCount的输出写入HDFS。然后,让TopN读取该输出。这称为作业链,有多种方法可以解决此问题

hadoop - 在 map reduce 中计算中位数

有人可以举例说明mapreduce中中位数/分位数的计算吗?我对Datafu中位数的理解是,'n'个映射器对数据并将数据发送到负责排序的“1”reducer来自n个映射器的所有数据并找到中位数(中间值)我的理解正确吗?,如果是这样,这种方法是否适用于海量数据,我可以清楚地看到一个单一的reducer努力完成最后的任务。谢谢 最佳答案 试图在一系列中找到中位数(中间数)将需要1个reducer传递整个数字范围以确定哪个是“中间”值。根据输入集中值的范围和唯一性,您可以引入组合器来输出每个值的频率-减少发送到单个缩减器的映射输出数量。然

EC2 上的 Hadoop 与 Elastic Map Reduce

我正在尝试评估这两个选项之间的差异。以下是我能想到的一些优缺点:ElasticMapReduce=>来自Amazon的更好支持,无需管理集群,更昂贵(?)EC2+Hadoop=>更多地控制您的hadoop配置,更便宜(?)我想知道是否有人针对EMR对EC2+Hadoop的性能进行了基准测试?大型集群部署的成本是否有显着差异?还有哪些区别? 最佳答案 我们在工作中使用这两种方法(EMR和EC2)。Amar提到的EMR的优势或多或少是正确的:因此,如果您想要简单,它可能是可行的方法。但是还有其他的考虑:EMR的版本远远落后于apache

caching - 缓存是 spark 相对于 map-reduce 的唯一优势吗?

我已经开始学习ApacheSpark,并且对该框架印象深刻。尽管一直困扰我的一件事是,在所有Spark演示中,他们都在谈论Spark如何缓存RDD,因此需要相同数据的多个操作比MapReduce等其他方法更快。所以我的问题是,如果是这种情况,那么只需在Yarn/Hadoop等MR框架内添加一个缓存引擎即可。为什么要完全创建一个新框架?我确定我在这里遗漏了一些东西,您将能够向我指出一些文档,这些文档可以让我更多地了解spark。 最佳答案 在内存计算中缓存+对于spark来说绝对是个大事情,但是还有其他事情。RDD(Resilient

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos)——什么时候使用其中一个?

我是并行计算的新手,刚开始在AmazonAWS上试用MPI和Hadoop+MapReduce。但我对何时使用一个而不是另一个感到困惑。例如,我看到的一个常见的经验法则建议可以概括为...大数据、非迭代、容错=>MapReduce速度、小数据、迭代、非Mapper-Reducer类型=>MPI但是,我还看到了MPI(MR-MPI)上的MapReduce实现,它不提供容错,但是seemstobe在某些基准测试中比Hadoop上的MapReduce更高效,并且似乎使用核外内存处理大数据。相反,新一代HadoopYarn及其分布式文件系统(HDFS)上也有MPI实现(MPICH2-YARN)。

hadoop - Hadoop Map Reduce 和 Google Map Reduce 之间的区别

HadoopMapReduce和GoogleMapReduce有什么区别?难道只是Hadoop为mapreduce等提供了标准化?差异中还有什么。 最佳答案 GoogleMapReduce和Hadoop是MapReduce框架/概念的两种不同实现(实例)。Hadoop是开源的,GoogleMapReduce不是,实际上没有太多关于它的可用细节。由于他们处理大型数据集,因此他们必须依赖分布式文件系统。Hadoop使用HDFS(Hadoop分布式文件系统)作为标准分布式文件系统,而GoogleMapReduce使用GFS(谷歌文件系统)

hadoop - Yarn 给现有的 map reduce 带来了什么额外的好处?

Yarn的基础设施层与原始mapreduce架构的不同之处如下:在YARN中,作业跟踪器分为两个不同的守护进程,分别称为ResourceManager和NodeManager(特定于节点)。资源管理器只管理资源分配给不同的作业,除了包含一个调度程序,它只负责调度作业而不用担心任何监控或状态更新。不同的资源,如内存、CPU时间、网络带宽等,被放入一个称为ResourceContainer的单元中。不同的AppMasters运行在不同的节点上,它们与这些资源容器中的许多对话,并相应地使用监控/状态详细信息更新节点管理器。我想知道使用这种方法如何从map-reduce的角度提高性能?此外,如

hadoop - 有没有人发现 Cascading for Hadoop Map Reduce 有用?

我一直在尝试Cascading,但我看不出在编写作业时比经典的mapreduce方法有任何优势。MapReduce工作给了我更多的自由,而Cascading似乎设置了很多障碍。可能会使简单的事情变得简单,但复杂的事情..我发现它们非常难有什么我想念的吗?与经典方法相比,级联是否有明显的优势?在什么情况下我应该选择级联而不是经典方法?有人使用它并且开心吗? 最佳答案 记住我是Cascading的作者......如果Pig或Hive对您的问题有意义,我的建议是使用它们,尤其是Pig。但是,如果您从事数据业务,而不仅仅是浏览数据以获取见解

php - 为什么我的 reduce 实现的函数组合会返回一个闭包?

我想从reduce/fold中导出n函数的组合函数,但它没有按预期工作:$id=function($x){return$x;};$comp=function($f){returnfunction($g)use($f){returnfunction($x)use($f,$g){return$f($g($x));};};};$fold=function($f,$acc){returnfunction($xs)use($f,&$acc){returnarray_reduce($xs,$f,$acc);};};$compn=function($fs){/*apply$foldhere*/};$

php - 我如何在 MongoDB 中使用 Map/Reduce?

我无法理解map/reduce在MongoDB中的工作原理。我有一个包含以下字段的集合:areacode,state,county,zip,city,lat,lon列出了美国的每个邮政编码以及相应的县、州等。我希望能够查询给定州的所有县或市。所以基本上是某种查询,用于查找“State=MI”的所有记录。在本例中,返回了大约900条记录。我如何按县对它们进行分组,以便我只获得该州的83个县?我不想使用distinct,因为我希望能够按字母顺序对它们进行排序,并且可能还会提取纬度/经度。关于如何使用map/reduce来完成这个的任何建议?我觉得这很基础,我就是想不通。