草庐IT

Mongodb 聚合 $group 后接 $limit 用于分页

coder 2023-10-27 原文

在 MongoDB 聚合管道中,从一个阶段到另一个阶段的记录流一次一个/批地发生(或者)将等待当前阶段完成整个收集,然后再将其传递到下一阶段?

例如,我有一个包含以下示例记录的集合类测试

{name: "Person1", marks: 20}
{name: "Person2", marks: 20}
{name: "Person1", marks: 20}

我总共有大约 100 名学生的 1000 条记录,我有以下聚合查询

    db.classtest.aggregate(
[
    {$sort: {name: 1}},
    {$group: {_id: '$name',
            total: {$sum: '$marks'}}},
    {$limit: 5}
])

我有以下问题。

  1. 排序顺序在最终结果中丢失。如果我在 $group 之后放置另一个排序,则结果会正确排序。这是否意味着 $group 不再保持之前的排序顺序?
  2. 我想将结果限制为 5。是否必须在达到限制之前完全完成组操作(对于所有 1000 条记录)。 (或) 群操作有记录时将记录传递给限制阶段,满足限制阶段要求​​时停止处理?

我的实际想法是对聚合结果进行分页。在上面的场景中,如果 $group 维护排序顺序并且只处理所需数量的记录,我想在后续页面查询中应用 $match condition {$ge: 'lastPersonName'}

  1. 我不想在 $group 之前应用 $limit,因为我想要 5 个学生的结果,而不是前 5 个记录。
  2. 我可能不想使用 $skip,因为这意味着要有效地遍历那么多记录。

最佳答案

我已经解决了这个问题,不需要维护另一个集合,甚至不需要 $group 遍历整个集合,因此发布我自己的答案。

正如其他人所指出的:

  1. $group 不保留顺序,因此早期排序没有太大帮助。
  2. $group 不做任何优化,即使有以下 $limit,即在整个集合上运行 $group .

我的用例具有以下独特的功能,这些功能帮助我解决了这个问题:

  1. 每个学生最多有 10 条记录(最少 1 条)。
  2. 我对页面大小不是很在意。前端能够处理不同的页面大小。 以下是我用过的聚合命令。

    db.classtest.aggregate(
    [
        {$sort: {name: 1}},
        {$limit: 5 * 10},
        {$group: {_id: '$name',
            total: {$sum: '$marks'}}},
        {$sort: {_id: 1}}
    ])
    

解释以上内容。

  1. 如果 $sort 紧接在 $limit 之前,框架会优化要发送到下一阶段的数据量。引用here
  2. 要获得至少 5 条记录(页面大小),我需要将至少 5(页面大小)* 10(每个学生的最大记录数)= 50 条记录传递到 $group 阶段。这样,最终结果的大小可能在 0 到 50 之间。
  3. 如果结果小于 5,则不需要进一步分页。
  4. 如果结果大小大于 5,最后一个学生记录可能没有完全处理(即,没有对所有学生记录进行分组),因此我从结果中丢弃最后一个记录。
  5. 然后,最后一条记录中的名称(在保留的结果中)用作后续页面请求中的 $match 标准,如下所示。

    db.classtest.aggregate(
    [
        {$match: {name: {$gt: lastRecordName}}}
        {$sort: {name: 1}},
        {$limit: 5 * 10},
        {$group: {_id: '$name',
            total: {$sum: '$marks'}}},
        {$sort: {_id: 1}}
    ])
    

在上面,框架仍然会优化$match, $sort and $limit作为单个操作,我已经通过解释计划确认了这一点。

关于Mongodb 聚合 $group 后接 $limit 用于分页,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32065362/

有关Mongodb 聚合 $group 后接 $limit 用于分页的更多相关文章

  1. ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2

    大约一年前,我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞,我可以在一个地方轻松完成,而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje

  2. Ruby Sinatra 配置用于生产和开发 - 2

    我已经在Sinatra上创建了应用程序,它代表了一个简单的API。我想在生产和开发上进行部署。我想在部署时选择,是开发还是生产,一些方法的逻辑应该改变,这取决于部署类型。是否有任何想法,如何完成以及解决此问题的一些示例。例子:我有代码get'/api/test'doreturn"Itisdev"end但是在部署到生产环境之后我想在运行/api/test之后看到ItisPROD如何实现? 最佳答案 根据SinatraDocumentation:EnvironmentscanbesetthroughtheRACK_ENVenvironm

  3. ruby - inverse_of 是否适用于 has_many? - 2

    当我使用has_one时,它​​工作得很好,但在has_many上却不行。在这里您可以看到object_id不同,因为它运行了另一个SQL来再次获取它。ruby-1.9.2-p290:001>e=Employee.create(name:'rafael',active:false)ruby-1.9.2-p290:002>b=Badge.create(number:1,employee:e)ruby-1.9.2-p290:003>a=Address.create(street:"123MarketSt",city:"SanDiego",employee:e)ruby-1.9.2-p290

  4. ruby-on-rails - 事件记录 : Select max of limit - 2

    我正在尝试将以下SQL查询转换为ActiveRecord,它正在融化我的大脑。deletefromtablewhereid有什么想法吗?我想做的是限制表中的行数。所以,我想删除少于最近10个条目的所有内容。编辑:通过结合以下几个答案找到了解决方案。Temperature.where('id这给我留下了最新的10个条目。 最佳答案 从您的SQL来看,您似乎想要从表中删除前10条记录。我相信到目前为止的大多数答案都会如此。这里有两个额外的选择:基于MurifoX的版本:Table.where(:id=>Table.order(:id).

  5. ruby - "undefined method"用于 rails 模型 - 2

    我正在使用带有Rails的Devise,我想添加一个方法“getAllComments”,所以我这样写:classUser在我的Controller中:defdashboard@user=current_user@comments=@user.getAllComments();end当我访问我的url时,我得到了undefinedmethod`getAllComments'for#我做错了什么?谢谢 最佳答案 因为getAllComments是一个类方法,而您正试图将其作为实例方法访问。您要么需要访问它:User.getAllCom

  6. Ruby on Rails regexp equals-tilde 与 array include 用于检查选项列表 - 2

    我正在使用Rails3.2.3和Ruby1.9.3p0。我发现我经常需要确定某个字符串是否出现在选项列表中。看来我可以使用Ruby数组.includemethod:或正则表达式equals-tildematchshorthand用竖线分隔选项:就性能而言,一个比另一个好吗?还有更好的方法吗? 最佳答案 总结:Array#include?包含String元素,在接受和拒绝输入时均胜出,对于您的示例只有三个可接受的值。对于要检查的更大的集合,看起来Set#include?和String元素可能会获胜。如何测试我们应该根据经验对此进行测试

  7. ruby-on-rails - rails group by 和 order by column - 2

    在我的Controller中,我得到了按类别分组的所有Extras:defindex@categories=Extra.all.group_by(&:category)end结果类似于哈希数组:{#=>[#,#=>[#,#]}我想按类别“排序”列而不是id排序,它应该如下所示:{#=>[#,#=>[#,#]}当我尝试时:defindex@categories=Extra.all.group_by(&:category).sort_by{|s|s[:sort]}end我得到“没有将符号隐式转换为整数”。那是因为我在“sort_by”中使用了一个符号吗? 最佳答

  8. ruby - 每个页面上的 Jekyll 分页 - 2

    据我们所知,Jekyll默认分页仅支持index.html,我想创建blog.html并在那里包含分页。有什么解决办法吗? 最佳答案 如果您创建一个名为/blog的目录并在其中放置一个index.html文件,那么您可以向_config.yml表示paginate_path:"blog/page:num"。不是使用根文件夹中的默认index.html作为分页器模板,而是使用/blog/index.html。分页器将根据需要生成类似/blog/page2/和/blog/page3/的页面。这将使您到达yourwebsite.com/b

  9. ruby-on-rails - Ruby "Undefined Method"用于类方法 - 2

    Ruby初学者努力简单地将这个@@people散列的值打印到控制台classPerson#haveafirst_nameandlast_nameattributewithpublicaccessorsattr_accessor:first_nameattr_accessor:last_name#haveaclassattributecalled`people`thatholdsanarrayofobjects@@people=[]#havean`initialize`methodtoinitializeeachinstancedefinitialize(first_name,last_

  10. python - 用于 Python 或 Ruby 的 Amazon Book API? - 2

    这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:AmazonAPIlibraryforPython?我正在寻找一个AmazonAPI,它可以让我:按书名或作者查找书籍显示书籍封面获取有关每本书的信息(价格、评级、评论数、格式、页数等)Python或Ruby库都可以(我只想要最容易使用的库)。有什么建议么?我知道在SO上还有其他一些关于此的帖子,但这些API似乎很快就过时了。[几个月前我尝试了几个建议的Ruby库,但无法让它们中的任何一个工作。]

随机推荐