草庐IT

MongoDB - 如何删除除最后一个以外的过期文档

coder 2023-10-27 原文

我们正在为我们的一个项目开发审计日志解决方案,非常感谢您的帮助。

我们有媒体实体,其中包含媒体 ID(数字)、操作(字符串,例如 PUBLISH)和发生日期,时间表示操作发生的日期和时间。

要求是删除超过 90 天的日志,但保留对媒体实体的最后操作的日志。

我们正在使用 Mongo 3.2,我们需要帮助来组织我们的集合,因为我们需要支持对包含 200-3 亿个文档的集合的读写。

我们尝试了几种方法,但无法找到一种简单的方法来实现它。

第一种方法

我们尝试用文档格式的平面集合来解决它:

{
  _id: ObjectId("570b3cf65eac4e48e92b4e20"),
  mediaId: 10000,
  action: "PUBLISH",
  occurredOn: ISODate("2016-04-04T12:42:07.000Z")
}

插入很容易,但我们在删除文档时遇到问题。

第二种方法

我们还尝试使用包含操作和日期数组的文档来解决它:

{
  _id: 10000,
  actions: [
    {
      action:"PUBLISH", 
      occurredOn: ISODate("2016-04-04T12:42:07.000Z")
    }, 
    ...
  ]
}

插入也很容易,但同样我们在删除文档时遇到问题。

关于如何为这个场景组织模式有什么建议吗?

最佳答案

实际上,这很简单,虽然不是在单个查询中完成。

不匹配的数据

假设我们有一个集合,它首先存储单个 mediaId 的值,因为这使方法更加清晰。

示例数据

{ "_id" : ObjectId("570ba4f66931b8f21a8bf25f"), "a" : 3, "date" : ISODate("2016-01-01T00:00:00Z") }
{ "_id" : ObjectId("570ba50a6931b8f21a8bf260"), "a" : 4, "date" : ISODate("2015-01-01T00:00:00Z") }
{ "_id" : ObjectId("570baab36931b8f21a8bf261"), "a" : 5, "date" : ISODate("2014-01-01T00:00:00Z") }

请注意,截至撰写本文时,所有日期均已超过 90 天。

程序

首先,我们要识别最后一个条目的 _id,无论如何我们都想保留它:

> db.date.find({},{_id:1}).sort({date:-1}).limit(1)
{ "_id" : ObjectId("570ba4f66931b8f21a8bf25f") }

接下来,我们要删除所有超过 90 天且不是最后一个条目的条目:

var outdated = new Date()
outdated.setDate(outdated.getDate() - 90 )
// We check first
db.date.find({
    _id:{ $not:{ $eq: ObjectId("570ba4f66931b8f21a8bf25f") }},
    date:{ $lt: outdated }
})

这给了我们正确的文件:

{ "_id" : ObjectId("570ba50a6931b8f21a8bf260"), "a" : 4, "date" : ISODate("2015-01-01T00:00:00Z") }
{ "_id" : ObjectId("570baab36931b8f21a8bf261"), "a" : 5, "date" : ISODate("2014-01-01T00:00:00Z") }

所以我们可以运行

> db.date.remove({
    _id:{ $not:{ $eq: ObjectId("570ba4f66931b8f21a8bf25f") }},
    date:{ $lt: outdated }
})
WriteResult({ "nRemoved" : 2 })
> db.date.find()
{ "_id" : ObjectId("570ba4f66931b8f21a8bf25f"), "a" : 3, "date" : ISODate("2016-01-01T00:00:00Z") }

为什么会这样?

简单的逻辑。除非另有说明,否则查询条件与逻辑 AND 连接,意味着必须满足所有条件才能匹配文档。因此,即使最后一个文档早于 90 天,它也会被 $not 短语排除。

多个 mediaIds

现在,我们进入正题。

示例数据

{ "_id" : ObjectId("570baf826931b8f21a8bf262"), "mediaId" : 1000, "date" : ISODate("2016-04-11T14:06:58.668Z") }
{ "_id" : ObjectId("570baf8e6931b8f21a8bf263"), "mediaId" : 1000, "date" : ISODate("2016-01-01T00:00:00Z") }
{ "_id" : ObjectId("570bafa06931b8f21a8bf264"), "mediaId" : 1001, "date" : ISODate("2016-01-01T00:00:00Z") }
{ "_id" : ObjectId("570bafa56931b8f21a8bf265"), "mediaId" : 1001, "date" : ISODate("2015-01-01T00:00:00Z") }
{ "_id" : ObjectId("570bafc96931b8f21a8bf266"), "mediaId" : 1002, "date" : ISODate("2014-01-01T00:00:00Z") }
{ "_id" : ObjectId("570bafcd6931b8f21a8bf267"), "mediaId" : 1002, "date" : ISODate("2013-01-01T00:00:00Z") }

识别最后的文件

我们必须在这里使用聚合:

db.media.aggregate(
    { $sort:{ date:1 }},
    { $group:{
         _id:"$mediaId",
         lastId:{ "$last":"$_id" },
    }},
    { $group:{
      _id:"lastIds",
      ids:{ $push:"$lastId" }
    }},
    { $project:{ _id: 0, ids: 1 } }
)

让我们剖析一下:

  1. { $sort:{ date:1 }} 我们想要所有的升序排序
  2. {$group:{_id:"$mediaId",lastId:{"$last":"$_id"}}} 我们希望每个 的排序顺序中的最后一个 ObjectId媒体ID
  3. { $group:{ _id:"lastIds", ids:{ $push:"$lastId"} }} 我们想把所有的 ObjectIds 都放在一个数组中,我们想要一个人工静态 _id 以确保所有 ObjectId 都被推送到所述数组。
  4. { $project:{ _id: 0, ids: 1 } } 我们只想返回所述数组

结果是

{
    "ids" : [
        ObjectId("570baf826931b8f21a8bf262"),
        ObjectId("570bafa06931b8f21a8bf264"),
        ObjectId("570bafc96931b8f21a8bf266")
     ]
 }

这些是我们明确想要保留的 ObjectId。

你用那些

删除旧文档

使用$in

db.media.find({
    _id:{ $not:{ $in:[
        ObjectId("570baf826931b8f21a8bf262"),
        ObjectId("570bafa06931b8f21a8bf264"), 
        ObjectId("570bafc96931b8f21a8bf266")
    ]}},
    date:{$lt: outdated}
})

这里的问题是 $in 对于(公认的相当大的)数组来说并不是很好的表现。这对您来说可能就足够了,因为删除似乎并不是时间紧迫的。但是,您也可以通过以下方式删除文档

使用批量操作

我们稍微调整了最后一个文档的标识,并为每个要保留的文档添加了批量操作:

var bulk = db.media.initializeUnorderedBulkOp()
db.media.aggregate(
    { $sort:{ date: 1 } },
    { $group:{  _id: "$mediaId", lastId:{ "$last": "$_id" }}}
).forEach(
    function(doc){
        bulk.find({
          _id:{ $not:{ $eq: doc.lastId }},
          date:{ $lt: outdated }
        }).remove()
    }
)
bulk.execute()

恕我直言,这种方法尽可能简单,同时保持良好的性能。

关于MongoDB - 如何删除除最后一个以外的过期文档,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36547469/

有关MongoDB - 如何删除除最后一个以外的过期文档的更多相关文章

  1. ruby - 如何使用 Nokogiri 的 xpath 和 at_xpath 方法 - 2

    我正在学习如何使用Nokogiri,根据这段代码我遇到了一些问题:require'rubygems'require'mechanize'post_agent=WWW::Mechanize.newpost_page=post_agent.get('http://www.vbulletin.org/forum/showthread.php?t=230708')puts"\nabsolutepathwithtbodygivesnil"putspost_page.parser.xpath('/html/body/div/div/div/div/div/table/tbody/tr/td/div

  2. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  3. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  4. ruby-on-rails - 如何验证 update_all 是否实际在 Rails 中更新 - 2

    给定这段代码defcreate@upgrades=User.update_all(["role=?","upgraded"],:id=>params[:upgrade])redirect_toadmin_upgrades_path,:notice=>"Successfullyupgradeduser."end我如何在该操作中实际验证它们是否已保存或未重定向到适当的页面和消息? 最佳答案 在Rails3中,update_all不返回任何有意义的信息,除了已更新的记录数(这可能取决于您的DBMS是否返回该信息)。http://ar.ru

  5. ruby-on-rails - 'compass watch' 是如何工作的/它是如何与 rails 一起使用的 - 2

    我在我的项目目录中完成了compasscreate.和compassinitrails。几个问题:我已将我的.sass文件放在public/stylesheets中。这是放置它们的正确位置吗?当我运行compasswatch时,它不会自动编译这些.sass文件。我必须手动指定文件:compasswatchpublic/stylesheets/myfile.sass等。如何让它自动运行?文件ie.css、print.css和screen.css已放在stylesheets/compiled。如何在编译后不让它们重新出现的情况下删除它们?我自己编译的.sass文件编译成compiled/t

  6. ruby - 如何将脚本文件的末尾读取为数据文件(Perl 或任何其他语言) - 2

    我正在寻找执行以下操作的正确语法(在Perl、Shell或Ruby中):#variabletoaccessthedatalinesappendedasafileEND_OF_SCRIPT_MARKERrawdatastartshereanditcontinues. 最佳答案 Perl用__DATA__做这个:#!/usr/bin/perlusestrict;usewarnings;while(){print;}__DATA__Texttoprintgoeshere 关于ruby-如何将脚

  7. ruby - 如何指定 Rack 处理程序 - 2

    Rackup通过Rack的默认处理程序成功运行任何Rack应用程序。例如:classRackAppdefcall(environment)['200',{'Content-Type'=>'text/html'},["Helloworld"]]endendrunRackApp.new但是当最后一行更改为使用Rack的内置CGI处理程序时,rackup给出“NoMethodErrorat/undefinedmethod`call'fornil:NilClass”:Rack::Handler::CGI.runRackApp.newRack的其他内置处理程序也提出了同样的反对意见。例如Rack

  8. ruby - 使用 Vim Rails,您可以创建一个新的迁移文件并一次性打开它吗? - 2

    使用带有Rails插件的vim,您可以创建一个迁移文件,然后一次性打开该文件吗?textmate也可以这样吗? 最佳答案 你可以使用rails.vim然后做类似的事情::Rgeneratemigratonadd_foo_to_bar插件将打开迁移生成的文件,这正是您想要的。我不能代表textmate。 关于ruby-使用VimRails,您可以创建一个新的迁移文件并一次性打开它吗?,我们在StackOverflow上找到一个类似的问题: https://sta

  9. ruby-on-rails - Rails - 一个 View 中的多个模型 - 2

    我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何

  10. ruby-on-rails - 渲染另一个 Controller 的 View - 2

    我想要做的是有2个不同的Controller,client和test_client。客户端Controller已经构建,我想创建一个test_clientController,我可以使用它来玩弄客户端的UI并根据需要进行调整。我主要是想绕过我在客户端中内置的验证及其对加载数据的管理Controller的依赖。所以我希望test_clientController加载示例数据集,然后呈现客户端Controller的索引View,以便我可以调整客户端UI。就是这样。我在test_clients索引方法中试过这个:classTestClientdefindexrender:template=>

随机推荐