草庐IT

mongodb - Mongo 映射/减少大型集合的减速

coder 2023-11-01 原文

我们有一个看似简单的 map/reduce 作业,它每天都要处理日志记录数据。在开发服务器上,我们可以对大量文档(约 1M)运行此作业,大约需要一分钟,没有任何问题。我们将作业移至生产服务器,即 Amazon EC2 服务器,该作业将以非常快的速度处理大约 50% 的行,然后爬取其余数据。浏览数十万份文件可能需要数小时,而不是预期的一两分钟。所以我希望我们在 map/reduce 作业中犯了一个明显的错误。

这是一个示例输入文档:

{
    "_id" : ObjectId("4f147a92d72b292c02000057"),
    "cid" : 25,
    "ip" : "123.45.67.89",
    "b" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_6_8) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.63 Safari/535.7",
    "r" : "",
    "l" : "en-US,en;q=0.8",
    "ts" : ISODate("2012-01-16T19:29:22Z"),
    "s" : 0,
    "cv" : "4f143a5fd72b292d7f000007",
    "c" : ""
}

我们只查询一系列 _id。

这是 map 代码:

function() { 
    var browser = {}
    ,referrer = {};
    browser[this.b] = {
        'count': 1
    };
    referrer[this.r] = {
        'count': 1
    };
    var objEmit =  {
        'count': 1
        ,'browsers' : browser
        ,'referrers' : referrer
    };
    var date = this._id.getTimestamp();
    date.setHours(0);
    date.setMinutes(0);
    date.setSeconds(0);
    emit({'cv' : this.cv, 'date' : date, 'cid' : this.cid }, objEmit);
};

这里是reduce代码:

function (key, emits) {
    var total = 0
    ,browsers = {}
    ,referrers = {};
    for (var i in emits) {
        total += emits[i].count;
        for (var key in emits[i].browsers) {
            if (emits[i].browsers.hasOwnProperty(key)) {
                !(browsers[key]) && (browsers[key] = { count : 0 });
                browsers[key].count +=  emits[i].browsers[key].count;
            }
        }
        for (var key in emits[i].referrers) {
            if (emits[i].referrers.hasOwnProperty(key)) {
                !(referrers[key]) && (referrers[key] = { count : 0 });
                referrers[key].count += emits[i].referrers[key].count;
            }
        }
    }
    return {'count' : total, 'browsers' : browsers, 'referrers' : referrers}
};

没有最终确定,我们将 map/reduce 作业输出到现有集合,并将“merge”选项设置为 true。

非常感谢任何帮助。

最佳答案

由于它是在开发和生产中运行的相同代码,并且您在非常大的集合上在开发中运行它并且返回速度非常快,您怀疑您的代码可能有问题的任何特定原因是什么?

您是否有可能在微型实例上运行?如果您不知道,Micro instances cap average CPU usage这可能会导致大量数据在不允许处理的情况下建立起来,从而损害您的 Map-Reduce 事件(I/O 没有以相同的方式受到限制,因此不断进入,然后 Linux 内核大部分时间都在管理它并使事情变得更糟)。

从 Micro 切换到 Small,即使 CPU 速度较低,也可能对您有所帮助,因为您有一个恒定的 CPU 周期“流”来工作(就像普通机器一样)并且 MongoDB 的内部调度可能会更好地适应。

这在以前可能不是问题,因为正常的查询“尖峰”持续时间不足以导致 CPU 限制开启。

关于mongodb - Mongo 映射/减少大型集合的减速,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10726529/

有关mongodb - Mongo 映射/减少大型集合的减速的更多相关文章

  1. postman——集合——执行集合——测试脚本——pm对象简单示例02 - 2

    //1.验证返回状态码是否是200pm.test("Statuscodeis200",function(){pm.response.to.have.status(200);});//2.验证返回body内是否含有某个值pm.test("Bodymatchesstring",function(){pm.expect(pm.response.text()).to.include("string_you_want_to_search");});//3.验证某个返回值是否是100pm.test("Yourtestname",function(){varjsonData=pm.response.json

  2. ruby-on-rails - 只有当不是 nil 时才执行映射? - 2

    如果names为nil,则以下中断。我怎样才能让这个map只有在它不是nil时才执行?self.topics=names.split(",").mapdo|n|Topic.where(name:n.strip).first_or_create!end 最佳答案 其他几个选项:选项1(在其上执行map时检查split的结果):names_list=names.try(:split,",")self.topics=names_list.mapdo|n|Topic.where(name:n.strip).first_or_create!e

  3. ruby - 按数字(从大到大)然后按字母(字母顺序)对对象集合进行排序 - 2

    我正在构建一个小部件来显示奥运会的奖牌数。我有一个“国家”对象的集合,其中每个对象都有一个“名称”属性,以及奖牌计数的“金”、“银”、“铜”。列表应该排序:1.首先是奖牌总数2.如果奖牌相同,按类型分割(金>银>铜,即2金>1金+1银)3.如果奖牌和类型相同,则按字母顺序子排序我正在用ruby​​做这件事,但我想语言并不重要。我确实找到了一个解决方案,但如果感觉必须有更优雅的方法来实现它。这是我做的:使用加权奖牌总数创建一个虚拟属性。因此,如果他们有2个金牌和1个银牌,加权总数将为“3.020100”。1金1银1铜为“3.010101”由于我们希望将奖牌数排序为最高的,因此列表按降序排

  4. Ruby:映射和注入(inject)之间的区别 - 2

    在此处阅读有关SO的各种解释,它们是这样描述的:map:Themapmethodtakesanenumerableobjectandablock,andrunstheblockforeachelement注入(inject):Injecttakesavalueandablock,anditrunsthatblockonceforeachelementofthelist.希望你明白为什么我觉得它们表面上看起来很相似。我什么时候会选择一个而不是另一个,它们之间有什么明显的区别吗? 最佳答案 如果您认为inject也别名为reduce,这

  5. ruby - 减少数组时使用 Hash.new 作为初始值 - 2

    我有一个这样的数组[1,1,2,3,3,3,4,5,5]我想计算每个数字出现的次数,我正在尝试这样做[1,1,2,3,3,3,4,5,5].reduce(Hash.new(0)){|hash,number|hash[number]+=1}问题是当我尝试运行它时出现以下错误NoMethodError:undefinedmethod`[]='for1:Fixnumfrom(irb):6:in`blockinirb_binding'from(irb):6:in`each'from(irb):6:in`reduce'from(irb):6我能像这样设置初始值吗,还是我弄错了?

  6. python - 用于从 Python 到 Ruby 查找集合的所有分区的翻译函数 - 2

    我有以下python函数来递归查找集合的所有分区:defpartitions(set_):ifnotset_:yield[]returnforiinxrange(2**len(set_)/2):parts=[set(),set()]foriteminset_:parts[i&1].add(item)i>>=1forbinpartitions(parts[1]):yield[parts[0]]+bforpinpartitions(["a","b","c","d"]):print(p)有人可以帮我把它翻译成ruby​​吗?这是我目前所拥有的:defpartitions(set)ifnots

  7. ruby-on-rails - Ruby on Rails URL 中的资源映射(RESTful API) - 2

    我很难给出正确的答案,所以我会在这里征求我的问题。我正在研究RESTFulAPI。自然地,我有多种资源,其中一些由父子关系组成,一些是独立资源。我有点困难的地方是弄清楚如何让那些将根据我的API构建客户端的人更容易。情况是这样的。假设我有一个“街道”资源。每条街道都有多个住宅。SoStreet:has_manytoHomes和Homes:belongs_toStreet。如果用户想要在特定的home资源上请求HTTPGET,以下应该可行:http://mymap/streets/5/homes/10这允许用户获取ID为10的房屋的信息。直截了当。我的问题是,我授予用户访问权限是否违反了

  8. C# 的 LINQ 用于在 ruby​​ 中等效的集合操作 - 2

    我是ruby​​开发的新手,我目前正在使用rails2.3.11在ruby​​1.8.7中开发一个项目,我想知道这种语言是否有与C#的linq等效的集合操作,例如where子句。谢谢。 最佳答案 Ruby中Linq的where等价于find_all检查documentationfortheEnumerableModule用于其他功能。 关于C#的LINQ用于在ruby​​中等效的集合操作,我们在StackOverflow上找到一个类似的问题: https://

  9. ruby-on-rails - 如何(大量)减少 Rails 应用程序中的 SQL 查询数量? - 2

    在我的Rails应用程序中,我有users,它可以有许多invoices,而invoices又可以有许多payments。现在在dashboardView中,我想总结一个user曾经收到的所有payments,按年、季度或月。付款也分割为毛额、Netty和税额。user.rb:classUser:items).allpayments_with_invoice.select{|x|range.cover?x.date}.sum(&:"#{kind}_amount")endend发票.rb:classInvoicepayment.rb:classPaymentdashboards_cont

  10. ruby-on-rails - Rails 表单对象与 reform-rails 与集合不工作或验证 - 2

    我正在使用reform-railsgem为了在我的Rails项目中使用表单对象。我意识到表单对象对于我在下面使用的示例代码来说可能有点矫枉过正,但它仅用于演示目的。在我创建一个用户的表单中,与该用户记录关联的是两个user_emails。#models/user.rbclassUser请注意,我没有在User模型中使用accepts_nested_attributes_for:user_emails。在我看来,表单对象的要点之一是它可以帮助您摆脱使用accepts_nested_attributes_for,所以这就是为什么我试图在没有它的情况下这样做。我从thisvideo得到了这个

随机推荐