我对 mongodb 中的聚合感到困惑。前提是我必须在一个时间范围内获取特定广告的数据。
所以假设我查询 4 月 22 日到 4 月 24 日范围内的广告,这是我应该得到的,来自 source2 的支出总和,以及来自 source1 的收入、 session 、跳出等。
[{ "_id" : ObjectId("560bbd5dfabc614611000e95"),
"spend": 470,
"revenue": 440,
"sessions": 3
},....
]
这是查询,我正在尝试为我提供正确的数据,但需要很长时间 - 仅 22k 个数据需要 24 秒。
db.getCollection('tests').aggregate([{
$match: {
ad_account_id: 40
}
}, {
"$unwind": "$source1"
}, {
"$unwind": "$source2"
}, {
"$group": {
"_id": "$internal_id",
"transactionrevenue": {
"$sum": {
"$cond": [{
"$and": [{
"$gte": [
"$source1.created_at", ISODate("2015-04-22T00:00:00.000Z")
]
}, {
"$lte": [
"$source1.created_at", ISODate("2015-04-25T00:00:00.000Z")
]
}]
}, "$source1.transactionrevenue", 0]
}
},
"sessions": {
"$sum": {
"$cond": [{
"$and": [{
"$gte": [
"$source1.created_at", ISODate("2015-04-22T00:00:00.000Z")
]
}, {
"$lte": [
"$source1.created_at", ISODate("2015-04-25T00:00:00.000Z")
]
}]
}, "$source1.sessions", 0]
}
},
"spend": {
"$sum": {
"$cond": [{
"$and": [{
"$gte": [
"$source2.created_at", ISODate("2015-04-22T00:00:00.000Z")
]
}, {
"$lte": [
"$source2.created_at", ISODate("2015-04-25T00:00:00.000Z")
]
}]
}, "$source2.spend", 0]
}
}
},
}]);
问题是如何展开多次,如何在 source1 中获得多个事物的总和,而不必一次又一次地进行聚合? 22 个条目需要 24 秒....请建议我应该索引什么(我没有),如果平均 4mb 的文档大小表明架构有问题?
即使在 mongodb 中聚合通常被认为更快,map reduce 会更好吗?
如果您认为文档设计有误,我会洗耳恭听,因为我们只是在进行迁移。现在改正比以后改正要好得多。
这是一个示例文档
{
"_id" : ObjectId("560bbd5dfabc614611000e95"),
"internal_id": 1,
"created_at" : ISODate("2015-04-21T00:50:02.593Z"),
"updated_at" : ISODate("2015-09-15T12:20:39.154Z"),
"name" : "LookalikeUSApr21_06h19m",
"ad_account_id" : 40,
"targeting" : {
"age_max" : 44,
"age_min" : 35,
"genders" : [
1
],
"page_types" : [
"desktopfeed"
]
},
"auto_optimization" : false,
"source1" : [
{
"id" : 119560952,
"created_at" : ISODate("2015-04-23T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"transactionrevenue" : 320,
"sessions" : 1,
"bounces" : 1
},
{
"id" : 119560955,
"created_at" : ISODate("2015-05-01T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"transactionrevenue" : 230,
"sessions" : 10,
"bounces" : 1
},
{
"id" : 119560954,
"created_at" : ISODate("2015-04-23T10:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"transactionrevenue" : 120,
"sessions" : 2,
"bounces" : 1
},
{
"id" : 119560953,
"created_at" : ISODate("2015-04-25T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"transactionrevenue" : 100,
"sessions" : 3,
"bounces" : 2
}
],
"source2" : [
{
"id" : 219560952,
"created_at" : ISODate("2015-04-22T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"spend" : 300
},
{
"id" : 219560955,
"created_at" : ISODate("2015-04-23T12:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"spend" : 170
},
{
"id" : 219560954,
"created_at" : ISODate("2015-04-25T10:35:09.467Z"),
"updated_at" : ISODate("2015-05-19T05:20:58.374Z"),
"spend" : 450
}
]
}
最佳答案
您应该做的第一件事是为 source1 和 source2 数组的“created_at”字段添加索引。通过简单地查询您选择的文档中存在的这些可能的匹配项,您可能会减少很多可能的结果并大大提高速度。
接下来的主要改进是将数组和过滤器合并为一个,特别是在您处理$unwind 之前。这将节省大量周期和数组中的文档扩展。
此外,它会为您提供正确的总数。当您 $unwind 两个数组时,一个数组的详细信息会重复第二个数组中的项目数。对于您首先“展开”的数组内容,这会给您带来不正确的结果。您始终可以单独执行每个操作,但最好将它们合并为一个:
db.getCollection('tests').aggregate([
{ "$match": {
"ad_account_id": 40,
"$or": [
{
"source1": {
"$elemMatch": {
"created_at": {
"$gte": new Date("2015-04-22"),
"$lte": new Date("2015-04-25")
}
}
}
},
{
"source2": {
"$elemMatch": {
"created_at": {
"$gte": new Date("2015-04-22"),
"$lte": new Date("2015-04-25")
}
}
}
}
]
}},
{ "$project": {
"_id": 0,
"internal_id": 1,
"source": {
"$setDifference": [
{ "$map": {
"input": { "$setUnion": [ "$source1", "$source2" ] },
"as": "source",
"in": {
"$cond": [
{ "$and": [
{ "$gte": [ "$$source.created_at", new Date("2015-04-22") ] },
{ "$lte": [ "$$source.created_at", new Date("2015-04-25") ] }
]},
"$$source",
false
]
}
}},
[false]
]
}
}},
{ "$unwind": "$source"},
{ "$group": {
"_id": "$internal_id",
"transactionrevenue": { "$sum": { "$ifNull": [ "$source.transactionrevenue", 0 ] } },
"sessions": { "$sum": { "$ifNull": [ "$source.sessions", 0 ] } },
"spend": { "$sum": { "$ifNull": [ "$source.spend", 0 ] } }
}}
])
这将给出 sample 的结果:
{ "_id" : 1, "transactionrevenue" : 440, "sessions" : 3, "spend" : 470 }
因此,伟大的大型体系结构可能暗示在这里所做的事情,在您的一般应用程序使用中将数组组合成一个数组是非常明智的。如果您必须区分两种不同类型的项目,您总是可以为“类型”添加另一个字段,但几乎所有处理都应该受益于单一数组。
除此之外,查询的主要教训是,您总是先$match 以过滤掉尽可能多的内容。虽然初始 $match 阶段当然不能从数组中删除不满足条件的项目,但它可以做的重要事情是“匹配文档”。因为您不想处理根本没有该信息的文档。这总是会增加时间。
除了组合数组之外的第二部分基本上是您希望在可能的情况下展开数组之前过滤掉任何内容,原因大致相同,因为您不想处理不需要的项目。
简短的类(class),首先过滤以减少您正在处理的内容。条件求和很好,但实际上只应该用于选择内容而不是原始过滤。它基本上是关于首先摆脱不需要的数据,而不是仅仅忽略它。流程更少,速度更快。
关于mongodb - 在 mongodb 中嵌入文档中的条件聚合,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32870611/
总的来说,我对ruby还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
我试图在一个项目中使用rake,如果我把所有东西都放到Rakefile中,它会很大并且很难读取/找到东西,所以我试着将每个命名空间放在lib/rake中它自己的文件中,我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题,但没有任务。我现在只有一个.rake文件作为测试,名为“servers.rake”,它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
作为我的Rails应用程序的一部分,我编写了一个小导入程序,它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是,与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存,我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关,因为当我删除对LDAP内容的调用时,内存使用情况会很好地稳定下来。此外,不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray,它们都是LDAP库的一部分。当我运行导入时,内存使用量最终达到超过1GB的峰值。如果问题存在,我需要找到一些方法来更正我的代
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情? 最佳答案 在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中,使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件,我们在StackOverflow上找到一个类似的问题
我需要从一个View访问多个模型。以前,我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它,但这似乎不是“ruby方式”,我将需要在不久的将来访问更多模型。这可能会变得很脏,是否有针对这种情况的任何技术?注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展,本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向,这似乎很麻烦。最终从任何
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他,以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时,出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr
我想向我的Controller传递一个参数,它是一个简单的复选框,但我不知道如何在模型的form_for中引入它,这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框,但我该怎么做,模型中没有一个对象,而是一个要检查的对象,以便在Controller中创建一个ifelse,如果没有检查,请帮助我,非常感谢,谢谢
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require,它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中,因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗? 最佳答案 我不在Bundler上工作,所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件,通常按照当前的惯例,只
我正在使用active_admin,我在Rails3应用程序的应用程序中有一个目录管理,其中包含模型和页面的声明。时不时地我也有一个类,当那个类有一个常量时,就像这样:classFooBAR="bar"end然后,我在每个必须在我的Rails应用程序中重新加载一些代码的请求中收到此警告:/Users/pupeno/helloworld/app/admin/billing.rb:12:warning:alreadyinitializedconstantBAR知道发生了什么以及如何避免这些警告吗? 最佳答案 在纯Ruby中:classA