hadoop - 重复键过滤

coder 2024-01-06 原文

我正在寻找一种分布式解决方案来实时筛选/过滤大量 key 。我的应用程序每天生成超过 1000 亿条记录，我需要一种方法来从流中过滤重复项。我正在寻找一个系统来存储滚动 10 天的 key ，每个 key 大约 100 字节。我想知道在使用 Hadoop 之前如何解决这种类型的大规模问题。 HBase 是正确的解决方案吗？有没有人尝试过像 Zookeeper 这样的部分内存解决方案？

最佳答案

我可以看到许多解决您问题的方法，但实时要求确实缩小了范围。您所说的实时是指您想要查看 key 在创建时是否重复？

让我们谈谈每秒的查询数。你说 100B/天(很多，恭喜!)。那是每秒 115 万次查询 (100,000,000,000/24/60/60)。我不确定 HBase 是否可以处理。您可能想考虑像 Redis(可能是分片的)或 Membase/memcached 或类似的东西。

如果您要在 HBase 中执行此操作，我会简单地将超过一万亿个键(10 天 x 100B 键)作为表中的键，并在其中放入一些值来存储它(因为您有到)。然后，你可以做一个 get 来弄清楚 key 是否在里面。这是一种 hokey，并没有充分利用 hbase，因为它只是充分利用了键空间。因此，在这种情况下，HBase 实际上是一个 b 树服务。我认为这不是个好主意。

如果你放宽限制不必做实时，你可以批量使用 MapReduce 去重。这很简单:它只是没有计数的字数统计。你按你拥有的键分组，然后如果返回多个值，你会在 reducer 中看到重复项。有了足够多的节点和足够多的延迟，您就可以有效地解决这个问题。以下是 MapReduce 设计模式一书中的一些示例代码:https://github.com/adamjshook/mapreducepatterns/blob/master/MRDP/src/main/java/mrdp/ch3/DistinctUserDriver.java

ZooKeeper 用于分布式进程通信和同步。您不想在 zookeeper 中存储数万亿条记录。

因此，在我的观点中，您最好使用内存中的键/值存储(例如 Redis)，但您很难在内存中存储那么多数据。

关于hadoop - 重复键过滤，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20126595/

hadoop 重复 section HBase https duplicates distributed deduplication

有关hadoop - 重复键过滤的更多相关文章

ruby-on-rails - 事件管理员日期过滤器日期格式自定义 - 2
是否有简单的方法来更改默认ISO格式(yyyy-mm-dd)的ActiveAdmin日期过滤器显示格式？最佳答案您可以像这样为日期选择器提供额外的选项，而不是覆盖js:=f.input:my_date,as::datepicker,datepicker_options:{dateFormat:"mm/dd/yy"} 关于ruby-on-rails-事件管理员日期过滤器日期格式自定义，我们在StackOverflow上找到一个类似的问题： https://s
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
ruby-on-rails - 在 Controller 中干净地处理多个过滤器(参数) - 2
我有一个名为Post的类，我需要能够适应以下场景:如果用户选择了一个类别，则只显示该类别的帖子如果用户选择了一种类型，则只显示该类型的帖子如果用户选择了一个类别和类型，则只显示该类别中该类型的帖子如果用户没有选择任何内容，则显示所有帖子我想知道我的Controller是否不可避免地会因大量条件语句而显得粗糙...这是我解决此问题的错误方法-有谁知道我如何才能做到这一点？classPostsController 最佳答案您最好遵循“胖模型，瘦Controller”的惯例，这意味着您应该将这种逻辑放在模型本身中。Post类应该能够报告
ruby-on-rails - 如何处理 Grape 中特定操作的过滤器之前？ - 2
我正在我的Rails项目中安装Grape以构建RESTfulAPI。现在一些端点的操作需要身份验证，而另一些则不需要身份验证。例如，我有users端点，看起来像这样:moduleBackendmoduleV1classUsers现在如您所见，除了password/forget之外的所有操作都需要用户登录/验证。创建一个新的端点也没有意义，比如passwords并且只是删除password/forget从逻辑上讲，这个端点应该与用户资源。问题是Grapebefore过滤器没有像except,only这样的选项，我可以在其中说对某些操作应用过滤器。您通常如何干净利落地处理这种情况？
ruby-on-rails - Rails 3 - 过滤器链暂停为 :authentication rendered or redirected - 2
我仍然收到标题中的“错误”消息，但不知道如何解决。在ApplicationController中，classApplicationController在routes.rb#match'set_activity_account/:id/:value'=>'users#account_activity',:as=>:set_activity_account--thisdoesn'tworkaswell..resources:usersdomemberdoget:action_a,:action_bendcollectiondoget'account_activity'endend和User
ruby-on-rails - ActiveAdmin 自定义选择过滤器下拉名称 - 2
对于用户模型，我有一个过滤器来检查用户的预订状态，该状态由整数值(0、1或2)表示。UserActiveAdmin索引页上的过滤器是通过以下代码实现的:filter:booking_status,as::select然而，这会导致下拉选项为0、1或2。当管理员用户从下拉列表中选择它们时，我更愿意自己将它们命名为“未完成”、“待定”和“已确认”之类的名称。有没有办法在不改变booking_status在模型中的表示方式的情况下做到这一点？最佳答案假设booking_status是模型中的枚举字段，您可以使用:过滤器:booking
ruby - 正则表达式 - 保存重复捕获的组 - 2
这就是我做的a="%span.rockets#diamonds.ribbons.forever"a=a.match(/(^\%\w+)([\.|\#]\w+)+/)putsa.inspect这是我得到的#这就是我想要的#帮助？我尝试过但失败了:( 最佳答案通常，您不能获得任意数量的捕获组，但如果您使用扫描，您可以为您想要捕获的每个标记获得一个匹配:a="%span.rockets#diamonds.ribbons.forever"a=a.scan(/^%\w+|\G[.|#]\w+/)putsa.inspect["%span","
Ruby 从数组中删除重复的对象 - 2
我无法使用传统的Ruby方法从下面的数组user_list中删除所有重复对象，从而获得预期的结果。有解决这个问题的聪明方法吗？users=[]user_list.eachdo|u|user=User.find_by_id(u.user_id)users 最佳答案这个怎么样？users=User.find(user_list.map(&:user_id).uniq)这具有作为一个数据库调用而不是user_list.size数据库调用的额外好处。关于Ruby从数组中删除重复的对象，我们在
Ruby 删除可枚举列表中的重复项 - 2
ruby中有没有一个很好的方法来删除可枚举列表中的重复项(即拒绝等) 最佳答案对于数组你可以使用uniq()方法a=["a","a","b","b","c"]a.uniq#=>["a","b","c"]所以如果你只是(1..10).to_a.uniq或%w{antbatcatant}.to_a.uniq因为无论如何，几乎所有您实现的方法都将作为Array类返回。关于Ruby删除可枚举列表中的重复项，我们在StackOverflow上找到一个类似的问题： h
ruby - 重复排列 - 2
我知道如何创建值数组的排列。例如:[*1..3].permutation(2)这导致以下六种排列:[1,2][1,3][2,1][2,3][3,1][3,2]但这个结果缺少三个排列，它们是相同值的组合，即:[1,1][2,2][3,3]如何获得所有排列，包括上面重复的排列？最佳答案尝试#repeated_permutation:[*1..3].repeated_permutation(3).to_a>pp[*1..3].repeated_permutation(3).to_a[[1,1,1],[1,1,2],[1,1,3],[1

hadoop - 重复键过滤

有关hadoop - 重复键过滤的更多相关文章

随机推荐