草庐IT

mongodb - 如何在聚合中匹配和分组具有最大值的数组元素

coder 2023-11-06 原文

我需要帮助从文档中获取具有字段(级别)最大值的数组元素。然后统计数组元素字段“bssid”分组的总出现次数。

考虑以下数据

/* 1 */
{
    "_id" : "18:59:36:0c:94:a3",
    "timestamp" : "1460012567",
    "apdata" : [{
        "bssid" : "f4:b7:e2:56:e4:20",
        "ssid" : "Test Network2",
        "level" : -55
    }, {
        "bssid" : "b8:a3:86:67:03:56",
        "ssid" : "Test Network1",
        "level" : -76
    }]
}
/* 2 */
{
    "_id" : "d0:b3:3f:b9:42:38",
    "timestamp" : "1460013345",
    "apdata" : [{
        "bssid" : "f4:b7:e2:56:e4:20",
        "ssid" : "Test Network2",
        "level" : -65
    }, {
        "bssid" : "b8:a3:86:67:03:56",
        "ssid" : "Test Network1",
        "level" : -46
    }]
}
/* 3 */
{
    "_id" : "d0:b3:3f:b9:42:41",
    "timestamp" : "1460013145",
    "apdata" : [{
        "bssid" : "f4:b7:e2:56:e4:20",
        "ssid" : "Test Network2",
        "level" : -65
    }, {
        "bssid" : "b8:a3:86:67:03:56",
        "ssid" : "Test Network1",
        "level" : -46
    }]
 }

需要的输出是

{
    "bssid" : "f4:b7:e2:56:e4:20",
    "ssid" : "Test Network2",
    "count" : 1
}, {
    "bssid" : "b8:a3:86:67:03:56",
    "ssid" : "Test Network1",
    "count" : 2
}

这是整个集合中每个文档的数组中每个 bssid 具有最大值的次数。

最佳答案

如果您有可用的 MongoDB 3.2,那么您可以这样做:

db.sample.aggregate([
  { "$project": {
    "apdata": {
      "$arrayElemAt": [
        { "$filter": {
          "input": "$apdata",
          "as": "el",
          "cond": {
            "$eq": [ 
              "$$el.level",
              { "$max": {
                "$map": {
                  "input": "$apdata",
                  "as": "data",
                  "in": "$$data.level"
                }
              }}
            ]
          }
        }},
        0
      ]
    }
  }},
  { "$group": {
    "_id": "$apdata.bssid",
    "ssid": { "$first": "$apdata.ssid" },
    "count": { "$sum": 1 }
  }}
])

至少对于 MongoDB 2.6 你需要这样做:

db.sample.aggregate([
  { "$unwind": "$apdata" },
  { "$group": {
    "_id": "$_id",
    "apdata": { "$push": "$apdata" },
    "max": { "$max": "$apdata.level" }
  }},
  { "$unwind": "$apdata" },
  { "$redact": {
    "$cond": {
      "if": { "$eq": [ "$apdata.level", "$max" ] },
      "then": "$$KEEP",
      "else": "$$PRUNE"
    }
  }},
  { "$group": {
    "_id": "$apdata.bssid",
    "ssid": { "$first": "$apdata.ssid" },
    "count": { "$sum": 1 }
  }}
])

对于 MongoDB 2.4 或 2.2 是这样的:

db.sample.aggregate([
  { "$unwind": "$apdata" },
  { "$group": {
    "_id": "$_id",
    "apdata": { "$push": "$apdata" },
    "max": { "$max": "$apdata.level" }
  }},
  { "$unwind": "$apdata" },
  { "$project": {
    "apdata": 1,
    "isMax": { "$eq": [ "$apdata.level", "$max" ] }
  }},
  { "$match": { "isMax": true } },
  { "$group": {
    "_id": "$apdata.bssid",
    "ssid": { "$first": "$apdata.ssid" },
    "count": { "$sum": 1 }
  }}
])

在所有情况下 $max用于“首先”获取每个文档中数组的“最大”值,然后您可以使用它来“过滤”数组内容,然后再在 $group 中使用它。 .此方法仅因版本而异

MongoDB 3.2:允许 $max直接处理值的“数组”。所以 $map用于获取 “level” 值并找出“max”实际是多少。

然后 $filter可用于仅返回与“最大”值匹配的数组元素,最后是 $arrayElemAt用于将“唯一”(两个可能的和“零”索引中的)元素作为普通文档返回。

整个过程可以在$group中完成“仅”如果您基本上为 _id 重复整个语句并获得 $first "ssid" 值,但写成 $project 会更容易一些分别进行演示。

MongoDB 2.6:它缺少更高级的运算符,最值得注意的是 $max 的能力“直接”在数组上工作。值得注意的是需要 $unwind首先是数组然后实际上是$group仅在原始文档上,仅仅是为了获得“最大”值。

那么进程真的需要你$unwind再次因为您稍后将对数组中的元素进行分组,然后使用 $redact过滤内容。这是 $match 的“逻辑”形式您可以在其中直接将 "level" 与早期计算的“max”进行比较。所以不是“最大”的元素被删除。

MongoDB 2.4:再次基本相同的逻辑,除了代替$redact你实际上需要物理 $project为了在文档中放置一个字段以用于过滤 $match .


所有版本都有相同的最终$group ,您可以在其中为分组键和 $first 提供 "apdata.bssid" 的路径在 "ssid" 和简单的 $sum 的分组边界上产生结果计算结果中分组键的出现次数。

一切返回如下:

{ "_id" : "f4:b7:e2:56:e4:20", "ssid" : "Test Network2", "count" : 1 }
{ "_id" : "b8:a3:86:67:03:56", "ssid" : "Test Network1", "count" : 2 }

实际上,MongoDB 3.2 最“有效”的形式如下:

db.sample.aggregate([
  { "$group": {
    "_id": {
      "$arrayElemAt": [
        { "$map": {
          "input": {
            "$filter": {
              "input": "$apdata",
              "as": "el",
              "cond": {
                "$eq": [ 
                  "$$el.level",
                  { "$max": {
                    "$map": {
                      "input": "$apdata",
                      "as": "data",
                      "in": "$$data.level"
                    }
                  }}
                ]
              }
            }            
          },
          "as": "apdata",
          "in": {
            "bssid": "$$apdata.bssid",
            "ssid": "$$apdata.ssid"
          }
        }},
        0
      ]
    },
    "count": { "$sum": 1 }
  }}
])

由于复合 _id 的形式略有不同,但它是一个单一的 $group仅阶段,不重复整个过程以查找“最大”值的数组元素数据:

  {
    "_id" : {
      "bssid" : "b8:a3:86:67:03:56",
      "ssid" : "Test Network1"
    },
    "count" : 2
  }
  {
    "_id" : {
      "bssid" : "f4:b7:e2:56:e4:20",
      "ssid" : "Test Network2"
    },
    "count" : 1
  }

关于mongodb - 如何在聚合中匹配和分组具有最大值的数组元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36471621/

有关mongodb - 如何在聚合中匹配和分组具有最大值的数组元素的更多相关文章

  1. ruby - 如何在 Ruby 中顺序创建 PI - 2

    出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits

  2. ruby-on-rails - 按天对 Mongoid 对象进行分组 - 2

    在控制台中反复尝试之后,我想到了这种方法,可以按发生日期对类似activerecord的(Mongoid)对象进行分组。我不确定这是完成此任务的最佳方法,但它确实有效。有没有人有更好的建议,或者这是一个很好的方法?#eventsisanarrayofactiverecord-likeobjectsthatincludeatimeattributeevents.map{|event|#converteventsarrayintoanarrayofhasheswiththedayofthemonthandtheevent{:number=>event.time.day,:event=>ev

  3. ruby - 具有身份验证的私有(private) Ruby Gem 服务器 - 2

    我想安装一个带有一些身份验证的私有(private)Rubygem服务器。我希望能够使用公共(public)Ubuntu服务器托管内部gem。我读到了http://docs.rubygems.org/read/chapter/18.但是那个没有身份验证-如我所见。然后我读到了https://github.com/cwninja/geminabox.但是当我使用基本身份验证(他们在他们的Wiki中有)时,它会提示从我的服务器获取源。所以。如何制作带有身份验证的私有(private)Rubygem服务器?这是不可能的吗?谢谢。编辑:Geminabox问题。我尝试“捆绑”以安装新的gem..

  4. ruby - 如何在 buildr 项目中使用 Ruby 代码? - 2

    如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby​​

  5. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  6. ruby-on-rails - 如何在 ruby​​ 中使用两个参数异步运行 exe? - 2

    exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby​​中使用两个参数异步运行exe吗?我已经尝试过ruby​​命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何ruby​​gems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除

  7. ruby - 如何在续集中重新加载表模式? - 2

    鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende

  8. ruby 正则表达式 - 如何替换字符串中匹配项的第 n 个实例 - 2

    在我的应用程序中,我需要能够找到所有数字子字符串,然后扫描每个子字符串,找到第一个匹配范围(例如5到15之间)的子字符串,并将该实例替换为另一个字符串“X”。我的测试字符串s="1foo100bar10gee1"我的初始模式是1个或多个数字的任何字符串,例如,re=Regexp.new(/\d+/)matches=s.scan(re)给出["1","100","10","1"]如果我想用“X”替换第N个匹配项,并且只替换第N个匹配项,我该怎么做?例如,如果我想替换第三个匹配项“10”(匹配项[2]),我不能只说s[matches[2]]="X"因为它做了两次替换“1fooX0barXg

  9. ruby - 匹配未转义的平衡定界符对 - 2

    如何匹配未被反斜杠转义的平衡定界符对(其本身未被反斜杠转义)(无需考虑嵌套)?例如对于反引号,我试过了,但是转义的反引号没有像转义那样工作。regex=/(?!$1:"how\\"#expected"how\\`are"上面的正则表达式不考虑由反斜杠转义并位于反引号前面的反斜杠,但我愿意考虑。StackOverflow如何做到这一点?这样做的目的并不复杂。我有文档文本,其中包括内联代码的反引号,就像StackOverflow一样,我想在HTML文件中显示它,内联代码用一些spanMaterial装饰。不会有嵌套,但转义反引号或转义反斜杠可能出现在任何地方。

  10. ruby - 如何在 Ruby 中拆分参数字符串 Bash 样式? - 2

    我正在为一个项目制作一个简单的shell,我希望像在Bash中一样解析参数字符串。foobar"helloworld"fooz应该变成:["foo","bar","helloworld","fooz"]等等。到目前为止,我一直在使用CSV::parse_line,将列分隔符设置为""和.compact输出。问题是我现在必须选择是要支持单引号还是双引号。CSV不支持超过一个分隔符。Python有一个名为shlex的模块:>>>shlex.split("Test'helloworld'foo")['Test','helloworld','foo']>>>shlex.split('Test"

随机推荐