mongodb - 加速 MongoDB 聚合

coder 2023-10-29 原文

我有一个具有以下结构的分片集合“my_collection”:

{ 
   "CREATED_DATE" : ISODate(...),
   "MESSAGE" : "Test Message",
   "LOG_TYPE": "EVENT"
}

mongoDB 环境分为 2 个分片。上述集合使用 LOG_TYPE 上的散列分片键进行分片。 LOG_TYPE 属性还有 7 种其他可能性。

我在“my_collection”中有 100 万个文档，我正在尝试使用以下查询查找基于 LOG_TYPE 的文档数:

db.my_collection.aggregate([
    { "$group" :{ 
        "_id": "$LOG_TYPE",
        "COUNT": { "$sum":1 }
    }}
])

但这让我在大约 3 秒内得到结果。有什么办法可以改善吗？另外，当我运行 explain 命令时，它显示没有使用索引。组命令不使用索引吗？

最佳答案

聚合框架在提高查询性能方面目前存在一些限制，但您可以通过以下方式帮助它:

db.my_collection.aggregate([
    { "$sort" : { "LOG_TYPE" : 1 } },
    { "$group" :{ 
        "_id": "$LOG_TYPE",
        "COUNT": { "$sum":1 }
    }}
])

通过在 LOG_TYPE 上添加排序，您将“强制”优化器使用 LOG_TYPE 上的索引来按顺序获取文档。这将以多种方式提高性能，但因所使用的版本而异。

在真实数据上，如果对进入$group阶段的数据进行排序，会提高汇总的效率。您可以看到不同的查询计划，其中 $sort 将使用分片键索引。这对实际性能的改进将取决于每个“桶”中值的数量——通常只有七个不同值的 LOG_TYPE 使其成为一个非常差的分片键，但这确实意味着以下代码很可能是一个比优化聚合快得多:

db.my_collection.distinct("LOG_TYPE").forEach(function(lt) {
   print(db.my_collection.count({"LOG_TYPE":lt});
});

关于mongodb - 加速 MongoDB 聚合，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23428314/

mongodb 34 LOG_TYPE TYPE indexing aggregation-framework

有关mongodb - 加速 MongoDB 聚合的更多相关文章

ruby - Rails Elasticsearch 聚合 - 2
不知何故，我似乎无法获得包含我的聚合的响应...使用curl它按预期工作:HBZUMB01$curl-XPOST"http://localhost:9200/contents/_search"-d'{"size":0,"aggs":{"sport_count":{"value_count":{"field":"dwid"}}}}'我收到回复:{"took":4,"timed_out":false,"_shards":{"total":5,"successful":5,"failed":0},"hits":{"total":90,"max_score":0.0,"hits":[]},"a
c# - Ruby 等效于 C# Linq 聚合方法 - 2
什么是Linq聚合方法的ruby等价物。它的工作原理是这样的varfactorial=new[]{1,2,3,4,5}.Aggregate((acc,i)=>acc*i);每次将数组序列中的值传递给lambda时，变量acc都会累积。最佳答案这在数学以及几乎所有编程语言中通常称为折叠。它是更普遍的变形概念的一个实例。Ruby从Smalltalk中继承了这个特性的名称，它被称为inject:into:(像aCollectioninject:aStartValueinto:aBlock一样使用。)所以，在Ruby中，它称为inj
ruby-on-rails - 加速 RSpec 请求规范的方法 - 2
我有33个规范以大约5秒的速度运行，以这种速度运行会导致测试套件变慢。我追踪到请求规范(4秒以上)，因为模型规范只用了一小部分时间。我已经检查过，我的请求规范没有任何过于复杂或不必要的东西，所以我不知道该去哪里让它们更快，而不是只在推送代码之前运行它们以确保一切正常.加快请求规范的最佳方法是什么？最佳答案我使用Spork来加速我的测试。它保持整个环境加载以赢得时间。看看这个博客:http://ykyuen.wordpress.com/2010/12/14/rails-running-rspec-with-spork-test-s
ruby-on-rails - 如何使用 ruby 加速大型 CSV 的处理 - 2
对于一个项目，我需要解析一些非常大的CSV文件。一些条目的内容存储在MySQL数据库中。我正在尝试使用多线程来加快速度，但到目前为止，这只会减慢速度。我解析了一个CSV文件(最大10GB)，其中一些记录(20M+记录CSV中的大约5M)需要插入到MySQL数据库中。为了确定需要插入的记录，我们使用Redis服务器和包含正确ID/引用的集合。由于我们在任何给定时间处理大约30个这样的文件，并且存在一些依赖关系，我们将每个文件存储在一个Resque队列中，并让多个服务器处理这些(优先级)队列。简而言之:classWorkerdefself.perform(file)CsvParser.ea
sql - Arel 导致聚合无限循环 - 2
我在使用Arel聚契约(Contract)一查询中的2列时遇到了问题。当我运行它时，在railsdev-server崩溃之前，整个服务器会卡住一分钟。我怀疑是无限循环:)。也许我误解了Arel的整个概念，如果有人能看一下，我将不胜感激。这个查询的预期结果是这样的:[{:user_id=>1,:sum_account_charges=>300,:sum_paid_debts=>1000},...]a_account_charges=Table(:account_charges)a_paid_debts=Table(:paid_debts)a_participants=Table(:exp
ruby - 如何加速sass编译？ - 2
在编译sass时，我的编译时间往往很长(在当前的中型项目中长达9秒)，而我的笔记本电脑速度非常快，而且带有ssd。我通过grunt-contrib-sass使用sassass一个grunt任务，但是直接从命令行运行sass时编译时间差别不大。Libsass另一方面，同一个项目只需要大约100毫秒，但它不支持我需要的几个功能。所以我想知道我有什么可能加快编译过程？拆分文件当然有帮助，但是还有其他副作用更小的方法吗？编辑:此外，我也很乐意解释libsass为什么比ruby-sass快得多。不知何故，我非常怀疑这只是因为ruby比C/C++慢得多。还是我错了？编辑2:当我使用Ubun
ruby - 如何加速 Jekyll/Octopress 的生成？ - 2
我使用Octopress作为我的博客引擎。这是完美的。但是如果帖子很多，比如400+，生成速度就很慢了。那么，有什么方法可以加快Jekyll/Octopress的生成速度吗？谢谢。最佳答案显然，如果您只处理一篇文章，则无需等待整个站点生成。您正在寻找的是rakeisolate[partial_post_name]任务。使用rakeisolate，您可以仅“隔离”您正在处理的帖子，并将所有其他帖子移至source/_stash文件夹。partial_post_name参数只是帖子文件名中的一些单词。例如，如果我想将帖子与前面的示例
ruby-on-rails - 如何在 Rails/ActiveRecord 中同时使用多个聚合函数？ - 2
我想同时执行多个聚合函数，例如获取按状态分组的最大和最小id:Model.maximum(:id).minimum(:id).group(:status)这行不通(至少对于Rails3.1.1是这样)——你在最小调用时收到一个错误，说它没有在Fixnum上定义。NoMethodError:undefinedmethod`minimum'for22377:Fixnum我可以为它做原始sql-但只是想知道是否有更高级别/Rails选项...谢谢，克里斯最佳答案我有一个类似的问题，我在Rails4中使用groupwithpluck解决
ruby-on-rails - 在一个 Rails 应用程序中使用 PostgreSQL 的 MongoDB - 2
我可以在一个Rails应用程序中同时使用MongoDB和PostgreSQL吗？具体来说，我最终会想要使用像MongoHQ这样的东西。到目前为止，我未能在实验中进行这项工作。令我担心的是，MongoDB文档特别指出我必须禁用ActiveRecord。任何建议将不胜感激。最佳答案您无需禁用ActiveRecord即可使用MongoDB。查看Mongoid只需将gem加上任何模型与您现有的任何ActiveRecord模型一起添加。您应该注意到MongoHQ只是MongoDB的托管服务，可以与任何对象文档映射器(ODM)一起使用。更多
ruby - 使用 mongodb/mongoid 运行时更改模型 - 2
我必须在mongoid模型中添加几个字段，我知道MongoDB没有迁移，但如果我继续而不删除数据库，使rails完全“重新生成”数据库，它不会显示或使用新的领域!去这里最好的方法是什么？有比删除/重新打开mongodb更软的东西吗？提前致谢卢卡最佳答案一般来说，应该可以在运行时用新字段更新旧文档。MongoDB中不需要迁移。您可能想编写rake任务以使用新字段和默认值更新旧文档。您可以通过检查那些默认值为nil的新字段来找到这些文档。更新简单风格:如果您使用默认值定义一个新字段，只要您设置了一个新值，就应该始终使用该值:应用程序

mongodb - 加速 MongoDB 聚合

有关mongodb - 加速 MongoDB 聚合的更多相关文章

随机推荐