hadoop - 在 map reduce 中计算中位数

coder 2024-01-05 原文

有人可以举例说明 map reduce 中中位数/分位数的计算吗？

我对 Datafu 中位数的理解是，'n' 个映射器对数据并将数据发送到负责排序的“1”reducer 来自 n 个映射器的所有数据并找到中位数(中间值) 我的理解正确吗？，

如果是这样，这种方法是否适用于海量数据，我可以清楚地看到一个单一的 reducer 努力完成最后的任务。谢谢

最佳答案

试图在一系列中找到中位数(中间数)将需要 1 个 reducer 传递整个数字范围以确定哪个是“中间”值。

根据输入集中值的范围和唯一性，您可以引入组合器来输出每个值的频率 - 减少发送到单个缩减器的映射输出数量。然后，您的 reducer 可以使用排序值/频率对来识别中位数。

另一种扩展方法(同样，如果您知道值的范围和粗略分布)是使用自定义分区程序，按范围桶分配键(0-99 转到 reducer 0，100-199 到 reducer 2 ，等等)。然而，这将需要一些辅助工作来检查 reducer 输出并执行最终的中值计算(例如，知道每个 reducer 中的键数，您可以计算哪个 reducer 输出将包含中值，以及在哪个偏移处)

关于hadoop - 在 map reduce 中计算中位数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10109514/

中计 hadoop reducer section 中值 statistics mapreduce apache-pig median

有关hadoop - 在 map reduce 中计算中位数的更多相关文章

hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - 为什么用户必须输入 7 位数的 Twitter PIN 才能授予我的应用程序访问权限？ - 2
我正在为我的用户实现一些rubyonrails代码推特内容。我正在创建正确的oauth链接...类似http://twitter.com/oauth/authorize?oauth_token=y2RkuftYAEkbEuIF7zKMuzWN30O2XxM8U9j0egtzKv但在我的测试帐户授予对twitter的访问权限后，它会弹出一个页面，上面写着“您已成功授予对.我不知道用户应该在哪里输入此PIN以及他们为什么必须这样做。我认为这不是必要的步骤。Twitter应该将用户重定向到我在应用程序设置中提供的回调URL。有谁知道为什么会这样？更新我找到了thisarticle声明我需
ruby - 格式化数字以每隔三位数拆分一次 - 2
我想在格式化数字时每隔三个字符放置一个空格。根据这个规范:it"shouldformatanamount"dospaces_on(1202003).should=="1202003"end我想出了这段代码来完成这项工作defspaces_onamountthousands=amount/1000remainder=amount%1000ifthousands==0"#{remainder}"elsezero_padded_remainder='%03.f'%remainder"#{spaces_onthousands}#{zero_padded_remainder}"endend所以我
ruby - 在Ruby中计算持续时间与毫秒之间的差异 - 2
TL;DR:IneedtogetthedifferencebetweenHH:MM:SS.msandHH:MM:SS.msasHH:MM:SS:ms我需要什么:这是一个棘手的问题。我正在尝试计算两个时间戳之间的差异，如下所示:In:00:00:10.520Out:00:00:23.720应该交付:Diff:00:00:13.200我想我应该将时间解析为实际的Time对象并在那里使用差异。这在前一种情况下效果很好，并返回00:0:13.200。什么不起作用:然而，对于某些人来说，这并不能正常工作，因为Ruby使用usec而不是msec:In:00:2:22.760Out:00:2:31.
大数据之Hadoop数据仓库Hive - 2
目录：一、简介二、HQL的执行流程三、索引四、索引案例五、Hive常用DDL操作六、Hive常用DML操作七、查询结果插入到表八、更新和删除操作九、查询结果写出到文件系统十、HiveCLI和Beeline命令行的基本使用十一、Hive配置一、简介Hive是一个构建在Hadoop之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类SQL查询功能，用于查询的SQL语句会被转化为MapReduce作业，然后提交到Hadoop上运行。特点：简单、容易上手(提供了类似sql的查询语言hql)，使得精通sql但是不了解Java编程的人也能很好地进行大数据分析；灵活性高，可以自定义用户函数(UDF)和
ruby-on-rails - 在 View Rails 中计数 - 2
在我的显示View中，我有一个要循环播放的项目列表。这一切都很好。但是，我想在每个项目前面得到一个数字，它随着每个循环递增(i=0，i++你知道这个练习)。现在，我如何在Rails中执行此操作？这是我现在得到的:"> 最佳答案使用#each_with_index而不是在View中实例化变量!">. 关于ruby-on-rails-在ViewRails中计数，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.c
ruby-on-rails - 在 Rails 中计算到下一个生日的天数 - 2
我有一个模型，其中有一个名为birthday的date列。我如何计算距离用户下一个生日还有多少天？最佳答案这是一个简单的方法。你要确保捕获今年已经通过的案例(以及尚未通过的案例)classUser=bday(bday-Date.today).to_iendend并证明这一点!(我添加的是timecopgem以保持计算截至今天(2012-10-16)的准确性require'test_helper'classUserTest 关于ruby-on-rails-在Rails中计算到下一个生日
ruby - 在 Ruby 中计算一个字节的奇偶校验 - 2
在Ruby中计算一个字节是奇校验还是偶校验的最佳方法是什么？我有一个可用的版本:result="AB".to_i(16).to_s(2).count('1').odd?=>true不过，将数字转换为字符串并计算“1”似乎是一种糟糕的计算奇偶校验的方法。有什么更好的方法吗？我希望能够计算3DESkey的奇偶校验。最终，我想将偶数字节转换为奇数。谢谢，丹最佳答案除非你拥有的速度不够快，否则请保留它。它清晰简洁，性能比您想象的要好。我们将根据数组查找对所有内容进行基准测试，这是我测试过的最快的方法:ODD_PARITY=[false,
ruby - 我如何在 Ruby 中计算字符串的宽度？ - 2
String.length只会告诉我字符串中有多少个字符。(其实在Ruby1.9之前，它只会告诉我多少个字节，这就更没用了。)我真的很想知道一个字符串有多少个“en”宽。例如:'foo'.width#=>3'moo'.width#=>3.5#m's,w's,etc.arewide'foi'.width#=>2.5#i's,j's,etc.arenarrow'foobar'.width#=>6.25#spacesareverynarrow如果我能得到字符串的第一个n就更好了:'foo'[0,2.en]#=>"fo"'filial'[0,3.en]#=>"fili"'foobarbaz'[
ruby - 在 Elasticsearch 中计算地理距离 - 2
我在查询中使用geo_distancefilter和tire，它工作正常:search.filter:geo_distance,:distance=>"#{request.distance}km",:location=>"#{request.lat},#{request.lng}"我预计结果会以某种方式包括到我用于过滤器的地理位置的计算距离。有没有办法告诉elasticsearch在响应中包含它，这样我就不必在ruby中为每个结果计算它？==更新==我在谷歌群组中的foundtheanswer:search.sortdoby"_geo_distance","location"=>"

hadoop - 在 map reduce 中计算中位数

有关hadoop - 在 map reduce 中计算中位数的更多相关文章

随机推荐