草庐IT

mongodb - MapReduce 与 MongoDB - reduce 运行了多少次?

coder 2023-11-02 原文

我在 MongoDB 中使用 MapReduce,我想我已经全神贯注了,除了有一点我仍然不明白:reduce 运行了多少次?

例如,我有一个“项目”集合,每个项目都有一个“类别”。这是测试数据(用 javascript 编写,用于 node.js 单元测试):

var i = 0;
var dummyCategories = [
  { categoryId:(++i), categoryName:'Category '+i },   // [0] 1
  { categoryId:(++i), categoryName:'Category '+i },   // [1] 2
  { categoryId:(++i), categoryName:'Category '+i },   // [2] 3
  { categoryId:(++i), categoryName:'Category '+i },   // [3] 4
  { categoryId:(++i), categoryName:'Category '+i }    // [4] 5
];

i=0;
var dummyItems = [
  { itemId: 'TestItem' + (++i), title: 'Test Item ' + i,      // [0] 1
    category: dummyCategories[0]
  },
  { itemId: 'TestItem' + (++i), title: 'Test Item ' + i,      // [1] 2
    category: dummyCategories[1]
  },
  { itemId: 'TestItem' + (++i), title: 'Test Item ' + i,      // [2] 3
    category: dummyCategories[2] 
  },
  { itemId: 'TestItem' + (++i), title: 'Test Item ' + i,      // [3] 4
    category: dummyCategories[3]
  },
  { itemId: 'TestItem' + (++i), title: 'Test Item ' + i,      // [4] 5
    category: dummyCategories[4]
  },
  { itemId: 'TestItem' + (++i), title: 'Test Item ' + i,      // [5] 6
    category: dummyCategories[0]
  }
];

有 6 个项目,5 个类别,其中一个类别出现两次,其余类别出现一次。

在我的 map 函数中,我发出了 (this.category.categoryId, { items: 1 });。 (此完整版本包括值对象中除项目数之外的其他指标,但无论哪种方式,此行为都是相同的。)

我的reduce 函数如下所示:

function reduce(key, values) {
  var totals = {
    items: 0
  };

  for (var i = 0; i < values.length; i++) {
    totals.items += values[i].items;
  }

  return totals;
};

(map 中的输出结构与 reduce 中的输出结构相同,这是需要的。)

所以我使用 verbose=true 通过 mapReduce 运行它,它显示了这些统计数据:

计数:{ 输出:5,发出:6,减少:1,输入:6}

input:6 有意义,有 6 个文档。 emit:6 是有道理的,它为每个文档发出 1 个类别。 output:5 有意义,有5个类别。 但为什么 reduce 只运行一次?

现在写出来,它似乎正在为出现不止一次的每个发出的键运行 reduce。因此,当一个键只发出一次时,它不会减少它。那是对的吗?确定减少运行次数的数学公式是什么?

谢谢!

最佳答案

是的,您是正确的,如果 key 只发出一次,则 reduce 不会运行。我不认为存在一个数学公式可以告诉你 reduce 将运行多少次。

关于mongodb - MapReduce 与 MongoDB - reduce 运行了多少次?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11121299/

有关mongodb - MapReduce 与 MongoDB - reduce 运行了多少次?的更多相关文章

  1. ruby - 如何从 ruby​​ 中的字符串运行任意对象方法? - 2

    总的来说,我对ruby​​还比较陌生,我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础,我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用

  2. ruby - 如何每月在 Heroku 运行一次 Scheduler 插件? - 2

    在选择我想要运行操作的频率时,唯一的选项是“每天”、“每小时”和“每10分钟”。谢谢!我想为我的Rails3.1应用程序运行调度程序。 最佳答案 这不是一个优雅的解决方案,但您可以安排它每天运行,并在实际开始工作之前检查日期是否为当月的第一天。 关于ruby-如何每月在Heroku运行一次Scheduler插件?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/8692687/

  3. ruby-on-rails - 如何在 ruby​​ 中使用两个参数异步运行 exe? - 2

    exe应该在我打开页面时运行。异步进程需要运行。有什么方法可以在ruby​​中使用两个参数异步运行exe吗?我已经尝试过ruby​​命令-system()、exec()但它正在等待过程完成。我需要用参数启动exe,无需等待进程完成是否有任何ruby​​gems会支持我的问题? 最佳答案 您可以使用Process.spawn和Process.wait2:pid=Process.spawn'your.exe','--option'#Later...pid,status=Process.wait2pid您的程序将作为解释器的子进程执行。除

  4. ruby - 无法运行 Rails 2.x 应用程序 - 2

    我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby​​:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r

  5. ruby - Sinatra:运行 rspec 测试时记录噪音 - 2

    Sinatra新手;我正在运行一些rspec测试,但在日志中收到了一堆不需要的噪音。如何消除日志中过多的噪音?我仔细检查了环境是否设置为:test,这意味着记录器级别应设置为WARN而不是DEBUG。spec_helper:require"./app"require"sinatra"require"rspec"require"rack/test"require"database_cleaner"require"factory_girl"set:environment,:testFactoryGirl.definition_file_paths=%w{./factories./test/

  6. ruby-on-rails - 无法让 rspec、spork 和调试器正常运行 - 2

    GivenIamadumbprogrammerandIamusingrspecandIamusingsporkandIwanttodebug...mmm...let'ssaaay,aspecforPhone.那么,我应该把“require'ruby-debug'”行放在哪里,以便在phone_spec.rb的特定点停止处理?(我所要求的只是一个大而粗的箭头,即使是一个有挑战性的程序员也能看到:-3)我已经尝试了很多位置,除非我没有正确测试它们,否则会发生一些奇怪的事情:在spec_helper.rb中的以下位置:require'rubygems'require'spork'

  7. ruby-on-rails - before_filter 运行多个方法 - 2

    是否有可能:before_filter:authenticate_user!||:authenticate_admin! 最佳答案 before_filter:do_authenticationdefdo_authenticationauthenticate_user!||authenticate_admin!end 关于ruby-on-rails-before_filter运行多个方法,我们在StackOverflow上找到一个类似的问题: https://

  8. ruby - 可以通过多少种方法将方法添加到 ruby​​ 对象? - 2

    当谈到运行时自省(introspection)和动态代码生成时,我认为ruby​​没有任何竞争对手,可能除了一些lisp方言。前几天,我正在做一些代码练习来探索ruby​​的动态功能,我开始想知道如何向现有对象添加方法。以下是我能想到的3种方法:obj=Object.new#addamethoddirectlydefobj.new_method...end#addamethodindirectlywiththesingletonclassclass这只是冰山一角,因为我还没有探索instance_eval、module_eval和define_method的各种组合。是否有在线/离线资

  9. Vscode+Cmake配置并运行opencv环境(Windows和Ubuntu大同小异) - 2

    之前在培训新生的时候,windows环境下配置opencv环境一直教的都是网上主流的vsstudio配置属性表,但是这个似乎对新生来说难度略高(虽然个人觉得完全是他们自己的问题),加之暑假之后对cmake实在是爱不释手,且这样配置确实十分简单(其实都不需要配置),故斗胆妄言vscode下配置CV之法。其实极为简单,图比较多所以很长。如果你看此文还配不好,你应该思考一下是不是自己的问题。闲话少说,直接开始。0.CMkae简介有的人到大二了都不知道cmake是什么,我不说是谁。CMake是一个开源免费并且跨平台的构建工具,可以用简单的语句来描述所有平台的编译过程。它能够根据当前所在平台输出对应的m

  10. ruby - 确定 ruby​​ 脚本是否已经在运行 - 2

    有没有一种简单的方法可以判断ruby​​脚本是否已经在运行,然后适本地处理它?例如:我有一个名为really_long_script.rb的脚本。我让它每5分钟运行一次。当它运行时,我想看看之前运行的是否还在运行,然后停止第二个脚本的执行。有什么想法吗? 最佳答案 ps是一种非常糟糕的方法,并且可能会出现竞争条件。传统的Unix/Linux方法是将PID写入文件(通常在/var/run中)并在启动时检查该文件是否存在。例如pid文件位于/var/run/myscript.pid然后你会在运行程序之前检查它是否存在。有一些技巧可以避免

随机推荐