performance - MongoDB 映射减少 : Emit key from array based on condition

coder 2023-11-01 原文

我是 mongo db 的新手，所以如果这很琐碎，请原谅。我真的很感激你的帮助。

这个想法是针对某些特定值生成直方图。在那种情况下，某些文件的 mime 类型。为此，我正在使用 map reduce 作业。

我有一个 mongo 文件，格式如下:

{
    "_id" : ObjectId("4fc5ed3e67960de6794dd21c"),
    "name" : "some name",
    "uid" : "some app specific uid",
    "collection" : "some name",
    "metadata" : [
        {
            "key" : "key1",
            "value" : "Plain text",
            "status" : "SINGLE_RESULT",
        },
        {
            "key" : "key2",
            "value" : "text/plain",
            "status" : "SINGLE_RESULT",
        },
        {
            "key" : "key3",
            "value" : 3469,
            "status" : "OK",
        }
     ]
}

请注意，几乎每个文档中都有更多的元数据键值。

Map Reduce 作业

我尝试执行以下操作:

function map() {
   var mime = "";
   this.metadata.forEach(function (m) {
     if (m.key === "key2") {
        mime = m.value;}
     });
     emit(mime, {count:1});
}

function reduce() {
  var res = {count:0};
  values.forEach(function (v) {res.count += v.count;});
  return res;
}

db.collection.mapReduce(map, reduce, {out: { inline : 1}})

这似乎适用于少量文档(~15K)，但问题是在映射阶段遍历所有元数据键值需要花费大量时间。在更多文档 (~1Mio) 上运行此操作时，操作将永远进行。

所以我的问题是: 有什么方法可以直接发出 mime 类型(值)，而不是遍历所有键并选择它？或者有没有更好的方法来编写 map reduce 函数。

像 emit (this.metadata.value {$where this.metadata.key:"key2"}) 或类似的...

感谢您的帮助!

最佳答案

两个想法...

第一个想法:您对这个文档架构的依恋程度如何？您能否将元数据字段值作为嵌入式文档而不是嵌入式数组，如下所示:

{
    "_id" : ObjectId("4fc5ed3e67960de6794dd21c"),
    "name" : "some name",
    "uid" : "some app specific uid",
    "collection" : "some name",
    "metadata" : {
        "key1" : {
            "value" : "Plain text",
            "status" : "SINGLE_RESULT"
        },
        "key2": {
            "value" : "text/plain",
            "status" : "SINGLE_RESULT"
        }, 
        "key3" : {
            "value" : 3469,
            "status" : "OK"
        }
     }
}

然后你的 map 步骤完全取消了循环:

function map() {
   emit( this.metadata["key2"].value, { count : 1 } );
}

到那时，您甚至可以将其转换为“组”命令而不是“mapReduce”。

第二个想法:如果没有这样的模式更改，特别是如果“key2”出现在元数据数组的早期，您至少可以在找到 key 后立即退出循环以节省一些迭代次数，如下所示:

function map() {
   var mime = "";
   this.metadata.forEach(function (m) {
     if (m.key === "key2") {
        mime = m.value;
        break;
     } 
     });
     emit(mime, {count:1});
}

不确定这两条路是否是胜利的关键，但希望有帮助的想法。祝你好运!

关于performance - MongoDB 映射减少 : Emit key from array based on condition，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10817750/

performance condition 34 key value mongodb mapreduce

有关performance - MongoDB 映射减少 : Emit key from array based on condition的更多相关文章

ruby-on-rails - Resque - 类的未定义方法 'perform' - 2
我目前对后台队列不太满意。我正在尝试让Resque工作。我已经安装了redis和Resquegem。Redis正在运行。一个worker正在运行(rakeresque:workQUEUE=simple)。使用Web界面，我可以看到工作人员正在运行并等待工作。当我运行“rakeget_updates”时，作业已排队但失败了。我已经用defself.perform和defperform试过了。发条.raketask:get_updates=>:environmentdoResque.enqueue(GetUpdates)end类文件(app/workers/get_updates.rb)c
ruby-on-rails - 只有当不是 nil 时才执行映射？ - 2
如果names为nil，则以下中断。我怎样才能让这个map只有在它不是nil时才执行？self.topics=names.split(",").mapdo|n|Topic.where(name:n.strip).first_or_create!end 最佳答案其他几个选项:选项1(在其上执行map时检查split的结果):names_list=names.try(:split,",")self.topics=names_list.mapdo|n|Topic.where(name:n.strip).first_or_create!e
Ruby:映射和注入(inject)之间的区别 - 2
在此处阅读有关SO的各种解释，它们是这样描述的:map:Themapmethodtakesanenumerableobjectandablock,andrunstheblockforeachelement注入(inject):Injecttakesavalueandablock,anditrunsthatblockonceforeachelementofthelist.希望你明白为什么我觉得它们表面上看起来很相似。我什么时候会选择一个而不是另一个，它们之间有什么明显的区别吗？最佳答案如果您认为inject也别名为reduce，这
ruby - 减少数组时使用 Hash.new 作为初始值 - 2
我有一个这样的数组[1,1,2,3,3,3,4,5,5]我想计算每个数字出现的次数，我正在尝试这样做[1,1,2,3,3,3,4,5,5].reduce(Hash.new(0)){|hash,number|hash[number]+=1}问题是当我尝试运行它时出现以下错误NoMethodError:undefinedmethod`[]='for1:Fixnumfrom(irb):6:in`blockinirb_binding'from(irb):6:in`each'from(irb):6:in`reduce'from(irb):6我能像这样设置初始值吗，还是我弄错了？
ruby-on-rails - Ruby on Rails URL 中的资源映射(RESTful API) - 2
我很难给出正确的答案，所以我会在这里征求我的问题。我正在研究RESTFulAPI。自然地，我有多种资源，其中一些由父子关系组成，一些是独立资源。我有点困难的地方是弄清楚如何让那些将根据我的API构建客户端的人更容易。情况是这样的。假设我有一个“街道”资源。每条街道都有多个住宅。SoStreet:has_manytoHomes和Homes:belongs_toStreet。如果用户想要在特定的home资源上请求HTTPGET，以下应该可行:http://mymap/streets/5/homes/10这允许用户获取ID为10的房屋的信息。直截了当。我的问题是，我授予用户访问权限是否违反了
ruby-on-rails - 如何(大量)减少 Rails 应用程序中的 SQL 查询数量？ - 2
在我的Rails应用程序中，我有users，它可以有许多invoices，而invoices又可以有许多payments。现在在dashboardView中，我想总结一个user曾经收到的所有payments，按年、季度或月。付款也分割为毛额、Netty和税额。user.rb:classUser:items).allpayments_with_invoice.select{|x|range.cover?x.date}.sum(&:"#{kind}_amount")endend发票.rb:classInvoicepayment.rb:classPaymentdashboards_cont
【Elasticsearch基础】Elasticsearch索引、文档以及映射操作详解 - 2
文章目录概念索引相关操作创建索引更新副本查看索引删除索引索引的打开与关闭收缩索引索引别名查询索引别名文档相关操作新建文档查询文档更新文档删除文档映射相关操作查询文档映射创建静态映射创建索引并添加映射概念es中有三个概念要清楚，分别为索引、映射和文档（不用死记硬背，大概有个印象就可以）索引可理解为MySQL数据库；映射可理解为MySQL的表结构；文档可理解为MySQL表中的每行数据静态映射和动态映射上面已经介绍了，映射可理解为MySQL的表结构，在MySQL中，向表中插入数据是需要先创建表结构的；但在es中不必这样，可以直接插入文档，es可以根据插入的文档（数据），动态的创建映射（表结构），这就
ruby-on-rails - rails : Faster way to perform updates on many records - 2
在我们的Rails3.2.13应用程序(Ruby2.0.0+Heroku上的Postgres)中，我们经常从API中检索大量订单数据，然后我们需要在我们的数据库中更新或创建每个订单，因为以及协会。单个订单创建/更新自身加上大约。10-15个关联对象，我们一次最多导入500个订单。下面的代码可以工作，但问题是它在速度方面一点也不高效。创建/更新500条记录大约需要。1分钟并生成6500多个数据库查询!defadd_details(shop,shopify_orders)shopify_orders.eachdo|shopify_order|order=Order.where(:order
Ruby 惯用法短路返回第一个非零使用每个和映射 - 2
这是我正在尝试做的事情的本质，但“中断”不正确:needle=nilhaystacks.eachdo|haystack|needle=haystack.look_for_needle()breakifneedleend这更短，但它会遍历每个干草堆(至少不看)，即使它不需要:needle=nilhaystacks.eachdo|haystack|needle||=haystack.look_for_needle()end这是一个单行代码，但(我相信)它并不懒惰，所以它做了不必要的工作:needle=hackstacks.map{|h|h.look_for_needle()}.detect
ruby - 减少挂起 Sinatra 应用程序 - 2
我正在尝试将Bootstrap添加到Sinatra应用程序中。我已经设置了编译路径bootstrap.less和responsive.less.在Web浏览器中分别加载两个样式表会按预期工作。但是当我尝试在html页面中使用它们时，我的应用程序挂起。我只能用kill-9停止应用程序.似乎Lessimports和multiplestylesheets以某种方式导致应用程序挂起。我能够隔离问题:app.rbrequire'rubygems'require'bundler/setup'require'sinatra'require'less'get'/'dohaml:indexendget'

performance - MongoDB 映射减少 : Emit key from array based on condition

有关performance - MongoDB 映射减少 : Emit key from array based on condition的更多相关文章

随机推荐