mongodb - 来自具有 MongoDB 聚合的事件集合的线性漏斗，这可能吗？

coder 2023-10-30 原文

我有很多事件文档，每个事件都有很多字段，但与我的查询相关的是:

person_id - 对触发事件的人的引用
event - 用于标识事件的字符串键
occurred_at - 事件发生时间的协调世界时

我想实现的是:

获取事件键列表，例如`['event_1','event_2', 'event_3']
按顺序计算执行每个事件和该事件之前的所有事件的人数，即:
- 执行 event_1 的人数
- 执行 event_1 和 event_2 的人数
- 执行 event_1、event_2、event_3 的人数
- 等等
次要目标是能够获得每个事件的平均 occurred_at 日期，以便我可以计算每个事件之间的平均时间

我得到的最好的是以下两个 map reduce:

db.events.mapReduce(function () {
  emit(this.person_id, {
    e: [{
      e: this.event,
      o: this.occurred_at
    }]
  })
}, function (key, values) {
  return {
    e: [].concat.apply([], values.map(function (x) {
      return x.e
    }))
  }
}, {
  query: {
    account_id: ObjectId('52011239b1b9229f92000003'),
    event: {
      $in: ['event_a', 'event_b', 'event_c','event_d','event_e','event_f']
    }
  },
  out: 'people_funnel_chains',
  sort: { person_id: 1, occurred_at: 1 }
})

然后:

db.people_funnel_chains.mapReduce(function() {
  funnel = ['event_a', 'event_b', 'event_c','event_d','event_e','event_f']
  events = this.value.e;
  for (var e in funnel) {
    e = funnel[e];
    if ((i = events.map(function (x) {
      return x.e
    }).indexOf(e)) > -1) {
      emit(e, { c: 1, o: events[i].o })
      events = events.slice(i + 1, events.length);
    } else {
      break;
    }
  }
}, function(key,values) {
    return {
        c: Array.sum(values.map(function(x) { return x.c })),
        o: new Date(Array.sum(values.map(function(x) { return x.o.getTime() }))/values.length)
    };
}, { out: {inline: 1} })

我想使用聚合框架实时实现这一点，但看不出有什么办法。对于 10 万条记录，这需要 10 秒，我可以增量运行它，这意味着它足够快，可以接收新数据，但如果我想修改原始查询(例如更改事件链)，则无法完成在一个请求中，我希望它能够做到。

使用 Cursor.forEach() 更新

使用 Cursor.forEach() 我已经设法在这方面取得了巨大的改进(基本上消除了对第一个 map reduce 的要求)。

var time = new Date().getTime(), funnel_event_keys = ['event_a', 'event_b', 'event_c','event_d','event_e','event_f'], looking_for_i = 0, looking_for = funnel_event_keys[0], funnel = {}, last_person_id = null;
for (var i in funnel_event_keys) { funnel[funnel_event_keys[i]] = [0,null] };
db.events.find({
  account_id: ObjectId('52011239b1b9229f92000003'),
  event: {
    $in: funnel_event_keys
  }
}, { person_id: 1, event: 1, occurred_at: 1 }).sort({ person_id: 1, occurred_at: 1 }).forEach(function(e) {

  var current_person_id = e['person_id'].str; 

  if (last_person_id != current_person_id) {
    looking_for_i = 0;
    looking_for = funnel_event_keys[0]
  }

  if (e['event'] == looking_for) {
    var funnel_event = funnel[looking_for]
    funnel_event[0] = funnel_event[0] + 1;
    funnel_event[1] = ((funnel_event[1] || e['occurred_at'].getTime()) + e['occurred_at'].getTime())/2;
    looking_for_i = looking_for_i + 1;
    looking_for = funnel_event_keys[looking_for_i]
  }

  last_person_id = current_person_id;
})
funnel;
new Date().getTime() - time;

我想知道内存中数据的自定义是否能够改进这一点？从 MongoDB 中获取成百上千条记录到内存中(在另一台机器上)将成为一个瓶颈，有没有我不知道的技术可以做到这一点？

最佳答案

我写了一个complete answer on my MongoDB blog但总而言之，您需要做的是根据您关心的操作来计划您的操作，将操作字段的值映射到适当的键名中，按人分组汇总他们执行的三个操作(以及可选的次数) ) 然后转换新字段，检查 action2 是否在 action1 之后完成，action3 是否在 action2 之后完成...最后一个阶段只是总结了只做了 1、1、2、1、2 和 1 的人数然后 3.

使用函数生成聚合管道，可以根据传入的操作数组生成结果。

在我的测试用例中，整个管道在 200 毫秒内运行了 40,000 个文档的集合(这是在我的小型笔记本电脑上)。

正如正确指出的那样，我描述的一般解决方案假设虽然一个 Actor 可以多次执行任何 Action ，但他们只能从 Action 1 前进到 Action 2，但他们不能直接从 Action 1 跳到 Action 3(将 Action 顺序解释为描述在完成 action2 之前不能执行 action3 的先决条件)。

事实证明，聚合框架甚至可以用于顺序完全任意的事件序列，但您仍然想知道在某个时刻有多少人执行了序列 action1、action2、action3。

对原始答案所做的主要调整是在中间添加一个额外的两阶段步骤。此步骤展开按人员收集的文档以重新分组，找到第一个操作的第一次出现之后的第二个操作的第一次出现。

一旦我们有了最终比较成为 action1，然后是最早出现的 action2，并将其与最近出现的 action3 进行比较。

它可能可以被概括为处理任意数量的事件，但每超过两个额外的事件都会为聚合增加两个阶段。

这里是 my write-up of the modification of the pipeline以获得您正在寻找的答案。

关于mongodb - 来自具有 MongoDB 聚合的事件集合的线性漏斗，这可能吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18793035/

漏斗 mongodb event funnel 39 mapreduce report aggregation-framework

有关mongodb - 来自具有 MongoDB 聚合的事件集合的线性漏斗，这可能吗？的更多相关文章

ruby - 具有身份验证的私有(private) Ruby Gem 服务器 - 2
我想安装一个带有一些身份验证的私有(private)Rubygem服务器。我希望能够使用公共(public)Ubuntu服务器托管内部gem。我读到了http://docs.rubygems.org/read/chapter/18.但是那个没有身份验证-如我所见。然后我读到了https://github.com/cwninja/geminabox.但是当我使用基本身份验证(他们在他们的Wiki中有)时，它会提示从我的服务器获取源。所以。如何制作带有身份验证的私有(private)Rubygem服务器？这是不可能的吗？谢谢。编辑:Geminabox问题。我尝试“捆绑”以安装新的gem..
ruby - 如何以所有可能的方式将字符串拆分为长度最多为 3 的连续子字符串？ - 2
我试图获取一个长度在1到10之间的字符串，并输出将字符串分解为大小为1、2或3的连续子字符串的所有可能方式。例如:输入:123456将整数分割成单个字符，然后继续查找组合。该代码将返回以下所有数组。[1,2,3,4,5,6][12,3,4,5,6][1,23,4,5,6][1,2,34,5,6][1,2,3,45,6][1,2,3,4,56][12,34,5,6][12,3,45,6][12,3,4,56][1,23,45,6][1,2,34,56][1,23,4,56][12,34,56][123,4,5,6][1,234,5,6][1,2,345,6][1,2,3,456][123
ruby-on-rails - Rails 3.1 中具有相同形式的多个模型？ - 2
我正在使用Rails3.1并在一个论坛上工作。我有一个名为Topic的模型，每个模型都有许多Post。当用户创建新主题时，他们也应该创建第一个Post。但是，我不确定如何以相同的形式执行此操作。这是我的代码:classTopic:destroyaccepts_nested_attributes_for:postsvalidates_presence_of:titleendclassPost...但这似乎不起作用。有什么想法吗？谢谢! 最佳答案 @Pablo的回答似乎有你需要的一切。但更具体地说...首先改变你View中的这一行对此#
ruby-on-rails - 事件管理员日期过滤器日期格式自定义 - 2
是否有简单的方法来更改默认ISO格式(yyyy-mm-dd)的ActiveAdmin日期过滤器显示格式？最佳答案您可以像这样为日期选择器提供额外的选项，而不是覆盖js:=f.input:my_date,as::datepicker,datepicker_options:{dateFormat:"mm/dd/yy"} 关于ruby-on-rails-事件管理员日期过滤器日期格式自定义，我们在StackOverflow上找到一个类似的问题： https://s
postman——集合——执行集合——测试脚本——pm对象简单示例02 - 2
//1.验证返回状态码是否是200pm.test("Statuscodeis200",function(){pm.response.to.have.status(200);});//2.验证返回body内是否含有某个值pm.test("Bodymatchesstring",function(){pm.expect(pm.response.text()).to.include("string_you_want_to_search");});//3.验证某个返回值是否是100pm.test("Yourtestname",function(){varjsonData=pm.response.json
ruby-on-rails - 事件记录 : Select max of limit - 2
我正在尝试将以下SQL查询转换为ActiveRecord，它正在融化我的大脑。deletefromtablewhereid有什么想法吗？我想做的是限制表中的行数。所以，我想删除少于最近10个条目的所有内容。编辑:通过结合以下几个答案找到了解决方案。Temperature.where('id这给我留下了最新的10个条目。最佳答案从您的SQL来看，您似乎想要从表中删除前10条记录。我相信到目前为止的大多数答案都会如此。这里有两个额外的选择:基于MurifoX的版本:Table.where(:id=>Table.order(:id).
ruby - 具有两个参数的 block - 2
我从用户Hirolau那里找到了这段代码:defsum_to_n?(a,n)a.combination(2).find{|x,y|x+y==n}enda=[1,2,3,4,5]sum_to_n?(a,9)#=>[4,5]sum_to_n?(a,11)#=>nil我如何知道何时可以将两个参数发送到预定义方法(如find)？我不清楚，因为有时它不起作用。这是重新定义的东西吗？最佳答案如果您查看Enumerable#find的文档，您会发现它只接受一个block参数。您可以将它发送两次的原因是因为Ruby可以方便地让您根据它的“并行赋
ruby-on-rails - 在 RSpec 中，如何以任意顺序期望具有不同参数的多条消息？ - 2
RSpec似乎按顺序匹配方法接收的消息。我不确定如何使以下代码工作:allow(a).toreceive(:f)expect(a).toreceive(:f).with(2)a.f(1)a.f(2)a.f(3)我问的原因是a.f的一些调用是由我的代码的上层控制的，所以我不能对这些方法调用添加期望。最佳答案 RSpecspy是测试这种情况的一种方式。要监视一个方法，用allowstub，除了方法名称之外没有任何约束，调用该方法，然后expect确切的方法调用。例如:allow(a).toreceive(:f)a.f(2)a.f(1)
ruby-on-rails - 具有同名的模块和类 - 2
我有一个模块stat存在于目录结构中:lib/stat_creator/stat/在lib/stat_creator/stat.rb中，我在lib/stat_creator/stat/目录中有我需要的文件，以及:moduleStatCreatormoduleStatendend当我使用该模块时，我将这些类称为StatCreator::Stat::Foo.new现在我想要一个存在于应用程序中的根Stat类。我在app/models中制作了我的Stat类，并在routes.rb中进行了设置。但是，如果我转到Rails控制台并尝试在应用程序/模型中使用Stat类，例如:Stat.by_use
ruby-on-rails - 事件管理员和自定义方法 - 2
这是我在ActiveAdmin中的自定义页面ActiveAdmin.register_page"Settings"doaction_itemdolink_to('Importprojects','settings/importprojects')endcontentdopara"Text"endcontrollerdodefimportprojectssystem"rakedataspider:import_projects_ninja"para"OK"endendend我想做的是，当我单击“导入项目”按钮时，我想在Controller中执行rake任务。但是我无法访问该方法。可能是什

mongodb - 来自具有 MongoDB 聚合的事件集合的线性漏斗，这可能吗？

使用 Cursor.forEach() 更新

有关mongodb - 来自具有 MongoDB 聚合的事件集合的线性漏斗，这可能吗？的更多相关文章

随机推荐