MPI_Reduce_草庐IT

hadoop - Hadoop Map Reduce 代码的前 N 个值

我是hadoop世界的新手，正在努力完成一项简单的任务。任何人都可以告诉我如何通过仅使用Mapreduce代码技术来获取单词计数示例的前n个值吗？我不想为这个简单的任务使用任何hadoop命令。最佳答案您有两个明显的选择:有两个MapReduce作业:WordCount:计算所有的单词(几乎就是这个例子)TopN:一个MapReduce作业，用于查找某事物的前N个(这里有一些示例:sourcecode、blogpost)将WordCount的输出写入HDFS。然后，让TopN读取该输出。这称为作业链，有多种方法可以解决此问题

hadoop - 在 map reduce 中计算中位数

有人可以举例说明mapreduce中中位数/分位数的计算吗？我对Datafu中位数的理解是，'n'个映射器对数据并将数据发送到负责排序的“1”reducer来自n个映射器的所有数据并找到中位数(中间值)我的理解正确吗？，如果是这样，这种方法是否适用于海量数据，我可以清楚地看到一个单一的reducer努力完成最后的任务。谢谢最佳答案试图在一系列中找到中位数(中间数)将需要1个reducer传递整个数字范围以确定哪个是“中间”值。根据输入集中值的范围和唯一性，您可以引入组合器来输出每个值的频率-减少发送到单个缩减器的映射输出数量。然

中计 hadoop reducer section 中值 statistics mapreduce apache-pig median

EC2 上的 Hadoop 与 Elastic Map Reduce

我正在尝试评估这两个选项之间的差异。以下是我能想到的一些优缺点:ElasticMapReduce=>来自Amazon的更好支持，无需管理集群，更昂贵(？)EC2+Hadoop=>更多地控制您的hadoop配置，更便宜(？)我想知道是否有人针对EMR对EC2+Hadoop的性能进行了基准测试？大型集群部署的成本是否有显着差异？还有哪些区别？最佳答案我们在工作中使用这两种方法(EMR和EC2)。Amar提到的EMR的优势或多或少是正确的:因此，如果您想要简单，它可能是可行的方法。但是还有其他的考虑:EMR的版本远远落后于apache

Elastic Hadoop 205 section amazon-web-services

caching - 缓存是 spark 相对于 map-reduce 的唯一优势吗？

我已经开始学习ApacheSpark，并且对该框架印象深刻。尽管一直困扰我的一件事是，在所有Spark演示中，他们都在谈论Spark如何缓存RDD，因此需要相同数据的多个操作比MapReduce等其他方法更快。所以我的问题是，如果是这种情况，那么只需在Yarn/Hadoop等MR框架内添加一个缓存引擎即可。为什么要完全创建一个新框架？我确定我在这里遗漏了一些东西，您将能够向我指出一些文档，这些文档可以让我更多地了解spark。最佳答案在内存计算中缓存+对于spark来说绝对是个大事情，但是还有其他事情。RDD(Resilient

map-reduce caching section Spark hadoop apache-spark

Hadoop MapReduce vs MPI(vs Spark vs Mahout vs Mesos)——什么时候使用其中一个？

我是并行计算的新手，刚开始在AmazonAWS上试用MPI和Hadoop+MapReduce。但我对何时使用一个而不是另一个感到困惑。例如，我看到的一个常见的经验法则建议可以概括为...大数据、非迭代、容错=>MapReduce速度、小数据、迭代、非Mapper-Reducer类型=>MPI但是，我还看到了MPI(MR-MPI)上的MapReduce实现，它不提供容错，但是seemstobe在某些基准测试中比Hadoop上的MapReduce更高效，并且似乎使用核外内存处理大数据。相反，新一代HadoopYarn及其分布式文件系统(HDFS)上也有MPI实现(MPICH2-YARN)。

mdash vs MapReduce noreferrer noopener hadoop parallel-processing mpi

hadoop - Hadoop Map Reduce 和 Google Map Reduce 之间的区别

HadoopMapReduce和GoogleMapReduce有什么区别？难道只是Hadoop为mapreduce等提供了标准化？差异中还有什么。最佳答案 GoogleMapReduce和Hadoop是MapReduce框架/概念的两种不同实现(实例)。Hadoop是开源的，GoogleMapReduce不是，实际上没有太多关于它的可用细节。由于他们处理大型数据集，因此他们必须依赖分布式文件系统。Hadoop使用HDFS(Hadoop分布式文件系统)作为标准分布式文件系统，而GoogleMapReduce使用GFS(谷歌文件系统)

Reduce Map section Hadoop MapReduce

hadoop - Yarn 给现有的 map reduce 带来了什么额外的好处？

Yarn的基础设施层与原始mapreduce架构的不同之处如下:在YARN中，作业跟踪器分为两个不同的守护进程，分别称为ResourceManager和NodeManager(特定于节点)。资源管理器只管理资源分配给不同的作业，除了包含一个调度程序，它只负责调度作业而不用担心任何监控或状态更新。不同的资源，如内存、CPU时间、网络带宽等，被放入一个称为ResourceContainer的单元中。不同的AppMasters运行在不同的节点上，它们与这些资源容器中的许多对话，并相应地使用监控/状态详细信息更新节点管理器。我想知道使用这种方法如何从map-reduce的角度提高性能？此外，如

带来 hadoop noreferrer noopener nofollow mapreduce hadoop-yarn

hadoop - 有没有人发现 Cascading for Hadoop Map Reduce 有用？

我一直在尝试Cascading，但我看不出在编写作业时比经典的mapreduce方法有任何优势。MapReduce工作给了我更多的自由，而Cascading似乎设置了很多障碍。可能会使简单的事情变得简单，但复杂的事情..我发现它们非常难有什么我想念的吗？与经典方法相比，级联是否有明显的优势？在什么情况下我应该选择级联而不是经典方法？有人使用它并且开心吗？最佳答案记住我是Cascading的作者......如果Pig或Hive对您的问题有意义，我的建议是使用它们，尤其是Pig。但是，如果您从事数据业务，而不仅仅是浏览数据以获取见解

Cascading hadoop MapReduce 的 section

php - 为什么我的 reduce 实现的函数组合会返回一个闭包？

我想从reduce/fold中导出n函数的组合函数，但它没有按预期工作:$id=function($x){return$x;};$comp=function($f){returnfunction($g)use($f){returnfunction($x)use($f,$g){return$f($g($x));};};};$fold=function($f,$acc){returnfunction($xs)use($f,&$acc){returnarray_reduce($xs,$f,$acc);};};$compn=function($fs){/*apply$foldhere*/};$

reduce php function return section functional-programming function-composition

php - 我如何在 MongoDB 中使用 Map/Reduce？

我无法理解map/reduce在MongoDB中的工作原理。我有一个包含以下字段的集合:areacode,state,county,zip,city,lat,lon列出了美国的每个邮政编码以及相应的县、州等。我希望能够查询给定州的所有县或市。所以基本上是某种查询，用于查找“State=MI”的所有记录。在本例中，返回了大约900条记录。我如何按县对它们进行分组，以便我只获得该州的83个县？我不想使用distinct，因为我希望能够按字母顺序对它们进行排序，并且可能还会提取纬度/经度。关于如何使用map/reduce来完成这个的任何建议？我觉得这很基础，我就是想不通。

何在 MongoDB section stackoverflow php mapreduce