草庐IT

mongodb - 如何在MongoDB中查询数组中某个字段出现次数超过n次的文档

coder 2023-10-28 原文

我有一个 MongoDB 集合 world,其中包含以下格式的文档:

{
  _id : ObjectId("4e8ae86d08101908e1000001"),
  country : [
      {
          state: "Newyork",
          type: 1
      },
      {
          state: "California",
          type: 1
      },
      {
          state: "Texas",
          type: 2
      }
  ]
}

我们可以很容易地得到数组中有四个或更多状态的文档:

db.world.find({'country.4': {$exists: true} })

但是我怎样才能获得国家/地区数组具有四个或更多 type: 1 状态的文档?

此外,我想避免在查询中使用 $where 运算符。

编辑 1

Blakes Seven 的回答对我来说似乎是正确的,但是当我尝试做相反的事情时,即;获取字段少于 的文档然后我得到错误的结果:

这里是查询:

db.world.aggregate([
    { "$redact": {
        "$cond": {
            "if": {
                "$lte": [
                    { "$size": { "$setDifference": [
                        { "$map": {
                            "input": "$country",
                            "as": "el",
                            "in": {
                                "$cond": {
                                    "if": { "$eq": [ "$$el.type", 769 ] },
                                    "then": "$$el",
                                    "else": false
                                }
                            }
                        }},
                        [false]
                    ]}},
                    4
                ]
            },
            "then": "$$KEEP",
            "else": "$$PRUNE"
        }
    }}
]);

最佳答案

底线是您需要过滤掉不匹配项并“计算”匹配项的出现次数以确定文档是否满足您的条件。这可以通过 $size 来完成过滤数组上的运算符作为逻辑测试的一部分 $redact .

$setIsSubset的建议别处制作的无法工作,因为“集合”基本上抵消了任何重复的项目。这意味着任何匹配都将减少到:

"$setIsSubset": [[1,0],[1]]

这当然是一个 false 条件。这是因为大多数情况下存在不匹配的数组成员(因此生成 0 )并且每个“集合”都有效地减少为它的“唯一”成员。即使匹配了“所有”成员,结果也会缩减为:

"$setIsSubset": [[1],[1]]

虽然是肯定的匹配,但这绝对不能断言实​​际满足所需的匹配“数量”。

所以只要数组成员本身实际上是“唯一的”,那么您就可以采用这种方法来过滤和计算匹配项:

db.world.aggregate([
    { "$match": { "country.3": { "$exists": true } }},
    { "$redact": {
        "$cond": {
            "if": {
                "$gte": [
                    { "$size": { "$setDifference": [
                        { "$map": {
                            "input": "$country",
                            "as": "el",
                            "in": {
                                "$cond": {
                                    "if": { "$eq": [ "$$el.type", 1 ] },
                                    "then": "$$el",
                                    "else": false
                                }
                            }
                        }},
                        [false]
                    ]}},
                    4
                ]
            },
            "then": "$$KEEP",
            "else": "$$PRUNE"
        }
    }}
])

因此为 $setDifference 的“集合”比较返回整个元素过滤掉返回的所有 false 值。然后对没有匹配项的结果数组进行 $size 测试,以查看是否满足必要的匹配项,如果不满足,则通过 $$PRUNE 丢弃文档。

当然$map这里处理每个元素以返回整个原始元素或在不满足条件的地方交替返回 false

如果数组中实际上存在重复的信息,比如“California”,那么 future 的 MongoDB 版本将有 $filter ,这既稍微简化了过程,最重要的是减少到“集合”时不删除重复项:

db.world.aggregate([
    { "$match": { "country.3": { "$exists": true } }},
    { "$redact": {
        "$cond": {
            "if": {
                "$gte": [
                    { "$size": { "$filter": {
                        "input": "$country",
                        "as": "el",
                        "cond": {
                            "$eq": [ "$$el.type", 1 ]
                        }
                    }}},
                    4
                ]
            },
            "then": "$$KEEP",
            "else": "$$PRUNE"
        }
    }}
])

当然,在该版本可用之前,您需要一种更传统的方法,使用 $unwind$match 过滤数组,同时保留重复项,然后获取“首先通过 $group 计数”:

db.world.aggregate([
    { "$match": { "country.3": { "$exists": true } }},
    { "$project": { "country": 1, "countryCopy": "$country" } },
    { "$unwind": "$country" },
    { "$match": { "country.type": 1 } },
    { "$group": {
        "_id": "$_id",
        "country": { "$first": "$countryCopy" }
        "count": { "$sum": 1 }
    }},
    { "$match": { "count": { "$gte": 4 } }}
])

但希望数组中没有重复项,所以没关系。

使用初始 $match 也很重要通过测试最小索引至少存在并丢弃小于 的正在处理的文档,立即过滤掉没有可能匹配的所需元素数量的数组(数组索引为 n-1 )在这种情况下总共有 4 个 元素。

这是 $exists测试这在这里很有用。这减少了在以后的处理中尝试匹配由于没有足够的元素开始而无法满足所需的匹配计数的文档。

关于mongodb - 如何在MongoDB中查询数组中某个字段出现次数超过n次的文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33102084/

有关mongodb - 如何在MongoDB中查询数组中某个字段出现次数超过n次的文档的更多相关文章

  1. ruby - 如何在 Ruby 中顺序创建 PI - 2

    出于纯粹的兴趣,我很好奇如何按顺序创建PI,而不是在过程结果之后生成数字,而是让数字在过程本身生成时显示。如果是这种情况,那么数字可以自行产生,我可以对以前看到的数字实现垃圾收集,从而创建一个无限系列。结果只是在Pi系列之后每秒生成一个数字。这是我通过互联网筛选的结果:这是流行的计算机友好算法,类机器算法:defarccot(x,unity)xpow=unity/xn=1sign=1sum=0loopdoterm=xpow/nbreakifterm==0sum+=sign*(xpow/n)xpow/=x*xn+=2sign=-signendsumenddefcalc_pi(digits

  2. ruby - ECONNRESET (Whois::ConnectionError) - 尝试在 Ruby 中查询 Whois 时出错 - 2

    我正在用Ruby编写一个简单的程序来检查域列表是否被占用。基本上它循环遍历列表,并使用以下函数进行检查。require'rubygems'require'whois'defcheck_domain(domain)c=Whois::Client.newc.query("google.com").available?end程序不断出错(即使我在google.com中进行硬编码),并打印以下消息。鉴于该程序非常简单,我已经没有什么想法了-有什么建议吗?/Library/Ruby/Gems/1.8/gems/whois-2.0.2/lib/whois/server/adapters/base.

  3. ruby-on-rails - 在 Ruby 中循环遍历多个数组 - 2

    我有多个ActiveRecord子类Item的实例数组,我需要根据最早的事件循环打印。在这种情况下,我需要打印付款和维护日期,如下所示:ItemAmaintenancerequiredin5daysItemBpaymentrequiredin6daysItemApaymentrequiredin7daysItemBmaintenancerequiredin8days我目前有两个查询,用于查找maintenance和payment项目(非排他性查询),并输出如下内容:paymentrequiredin...maintenancerequiredin...有什么方法可以改善上述(丑陋的)代

  4. ruby - 如何在 buildr 项目中使用 Ruby 代码? - 2

    如何在buildr项目中使用Ruby?我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序,我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/),但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻,因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby​​

  5. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  6. ruby - 多次弹出/移动 ruby​​ 数组 - 2

    我的代码目前看起来像这样numbers=[1,2,3,4,5]defpop_threepop=[]3.times{pop有没有办法在一行中完成pop_three方法中的内容?我基本上想做类似numbers.slice(0,3)的事情,但要删除切片中的数组项。嗯...嗯,我想我刚刚意识到我可以试试slice! 最佳答案 是numbers.pop(3)或者numbers.shift(3)如果你想要另一边。 关于ruby-多次弹出/移动ruby​​数组,我们在StackOverflow上找到一

  7. ruby - 将数组的内容转换为 int - 2

    我需要读入一个包含数字列表的文件。此代码读取文件并将其放入二维数组中。现在我需要获取数组中所有数字的平均值,但我需要将数组的内容更改为int。有什么想法可以将to_i方法放在哪里吗?ClassTerraindefinitializefile_name@input=IO.readlines(file_name)#readinfile@size=@input[0].to_i@land=[@size]x=1whilex 最佳答案 只需将数组映射为整数:@land边注如果你想得到一条线的平均值,你可以这样做:values=@input[x]

  8. ruby-on-rails - 如何在 ruby​​ 中使用两个参数异步运行 exe? - 2

    exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby​​中使用两个参数异步运行exe吗?我已经尝试过ruby​​命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何ruby​​gems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除

  9. ruby - 通过 erb 模板输出 ruby​​ 数组 - 2

    我正在使用puppet为ruby​​程序提供一组常量。我需要提供一组主机名,我的程序将对其进行迭代。在我之前使用的bash脚本中,我只是将它作为一个puppet变量hosts=>"host1,host2"我将其提供给bash脚本作为HOSTS=显然这对ruby​​不太适用——我需要它的格式hosts=["host1","host2"]自从phosts和putsmy_array.inspect提供输出["host1","host2"]我希望使用其中之一。不幸的是,我终其一生都无法弄清楚如何让它发挥作用。我尝试了以下各项:我发现某处他们指出我需要在函数调用前放置“function_”……这

  10. ruby - 如何在续集中重新加载表模式? - 2

    鉴于我有以下迁移:Sequel.migrationdoupdoalter_table:usersdoadd_column:is_admin,:default=>falseend#SequelrunsaDESCRIBEtablestatement,whenthemodelisloaded.#Atthispoint,itdoesnotknowthatusershaveais_adminflag.#Soitfails.@user=User.find(:email=>"admin@fancy-startup.example")@user.is_admin=true@user.save!ende

随机推荐