草庐IT

mongodb - 处理 MongoDB 中的可选/空数据

coder 2023-05-04 原文

我记得在某处读到过,当文档的整个结构已经就位以备更新时,mongo 引擎会更加舒适,所以这是问题所在。

在处理“空”数据时,例如插入空字符串时,我应该将其默认为 null"" 还是根本不插入?

{
    _id: ObjectId("5192b6072fda974610000005"),
    description: ""
}

{
    _id: ObjectId("5192b6072fda974610000005"),
    description: null
}

{
    _id: ObjectId("5192b6072fda974610000005")
}

您必须记住,description 字段可能会或可能不会在每个文档中填写(基于用户输入)。

最佳答案

简介

如果一个文档没有值,数据库认为它的值是null。假设一个数据库包含以下文档:

{ "_id" : ObjectId("5192d23b1698aa96f0690d96"), "a" : 1, "desc" : "" }
{ "_id" : ObjectId("5192d23f1698aa96f0690d97"), "a" : 1, "desc" : null }
{ "_id" : ObjectId("5192d2441698aa96f0690d98"), "a" : 1 }

如果您创建一个查询来查找字段 desc 不同于 null 的文档,您将只得到一个文档:

db.test.find({desc: {$ne: null}})
// Output:
{ "_id" : ObjectId("5192d23b1698aa96f0690d96"), "a" : 1, "desc" : "" }

数据库不会区分没有 desc 字段的文档和具有 desc 字段且值为 null 的文档。再来一项测试:

db.test.find({desc: null})
// Output:
{ "_id" : ObjectId("5192d2441698aa96f0690d98"), "a" : 1 }
{ "_id" : ObjectId("5192d23f1698aa96f0690d97"), "a" : 1, "desc" : null }

但差异仅在查询中被忽略,因为如上面最后一个示例所示,字段仍保存在磁盘上,您将收到与发送到 MongoDB 的文档具有相同结构的文档。

问题

When dealing with "empty" data, for example when inserting an empty string, should I default it to null, "" or not insert it at all ?

{desc: null}{} 没有太大区别,因为大部分 operators将有相同的结果。您应该只特别注意这两个运算符:

我会保存不带 desc 字段的文档,因为运算符将继续按预期工作,并且我会节省一些空间。

填充因子

如果您知道数据库中的文档经常增长,那么 MongoDB 可能需要在更新期间移动文档,因为之前的文档位置没有足够的空间。为了防止移动文档,MongoDB 为每个文档分配额外的空间。

MongoDB 为每个文档分配的额外空间量由 padding factor 控制。 .您不能(也不需要)选择填充因子,因为 MongoDB 会自适应地学习它,但是您可以通过使用 null 值填充可能的 future 字段来帮助 MongoDB 为每个文档预分配内部空间。差异非常小(取决于您的应用程序),在 MongoDB 学习最佳填充因子后可能会更小。

稀疏索引

本部分对您目前的具体问题不太重要,但在您遇到类似问题时可能会对您有所帮助。

如果您创建 unique index在字段 desc 上,那么您将无法保存多个具有相同值的文档,而在之前的数据库中,我们在字段 desc< 上有多个具有相同值的文档/em="">。让我们尝试在前面介绍的数据库中创建一个唯一索引,看看我们得到了什么错误:

db.test.ensureIndex({desc: 1}, {unique: true})
// Output:
{
    "err" : "E11000 duplicate key error index: test.test.$desc_1  dup key: { : null }",
    "code" : 11000,
    "n" : 0,
    "connectionId" : 3,
    "ok" : 1
}

如果我们希望能够在某个字段上创建唯一索引让某些文档将该字段留空,我们应该创建一个 sparse index .让我们再次尝试创建唯一索引:

// No errors this time:
db.test.ensureIndex({desc: 1}, {unique: true, sparse: true})

到目前为止,一切都很好,但我为什么要解释这一切?因为稀疏索引有一种晦涩的行为。在以下查询中,我们希望有 ALL 文档按 desc 排序。

db.test.find().sort({desc: 1})
// Output:
{ "_id" : ObjectId("5192d23f1698aa96f0690d97"), "a" : 1, "desc" : null }
{ "_id" : ObjectId("5192d23b1698aa96f0690d96"), "a" : 1, "desc" : "" }

结果看起来很奇怪。丢失的文件怎么了?让我们试试不排序的查询:

{ "_id" : ObjectId("5192d23b1698aa96f0690d96"), "a" : 1, "desc" : "" }
{ "_id" : ObjectId("5192d23f1698aa96f0690d97"), "a" : 1, "desc" : null }
{ "_id" : ObjectId("5192d2441698aa96f0690d98"), "a" : 1 }

本次所有文件均已退回。发生了什么?这很简单,但不是那么明显。当我们按desc对结果进行排序时,我们使用之前创建的稀疏索引,没有desc的文档没有条目 field 。以下查询向我们展示了使用索引对结果进行排序:

db.test.find().sort({desc: 1}).explain().cursor
// Output:
"BtreeCursor desc_1"

我们可以使用 hint 跳过索引:

db.test.find().sort({desc: 1}).hint({$natural: 1})
// Output:
{ "_id" : ObjectId("5192d23f1698aa96f0690d97"), "a" : 1, "desc" : null }
{ "_id" : ObjectId("5192d2441698aa96f0690d98"), "a" : 1 }
{ "_id" : ObjectId("5192d23b1698aa96f0690d96"), "a" : 1, "desc" : "" }

总结

  • 如果包含 {desc: null}
  • ,稀疏唯一索引将不起作用
  • 如果包含 {desc: ""}
  • ,稀疏唯一索引将不起作用
  • 稀疏索引可能会改变查询结果

关于mongodb - 处理 MongoDB 中的可选/空数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16553856/

有关mongodb - 处理 MongoDB 中的可选/空数据的更多相关文章

  1. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  2. ruby - 其他文件中的 Rake 任务 - 2

    我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时

  3. ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2

    作为我的Rails应用程序的一部分,我编写了一个小导入程序,它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是,与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存,我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关,因为当我删除对LDAP内容的调用时,内存使用情况会很好地稳定下来。此外,不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray,它们都是LDAP库的一部分。当我运行导入时,内存使用量最终达到超过1GB的峰值。如果问题存在,我需要找到一些方法来更正我的代

  4. ruby-on-rails - Rails 3 中的多个路由文件 - 2

    Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题

  5. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  6. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  7. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  8. ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2

    我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer

  9. ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗? - 2

    刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr

  10. ruby-on-rails - form_for 中不在模型中的自定义字段 - 2

    我想向我的Controller传递一个参数,它是一个简单的复选框,但我不知道如何在模型的form_for中引入它,这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框,但我该怎么做,模型中没有一个对象,而是一个要检查的对象,以便在Controller中创建一个ifelse,如果没有检查,请帮助我,非常感谢,谢谢

随机推荐