草庐IT

performance - MongoDB大索引构建很慢

coder 2023-05-05 原文

我有一个包含 4 亿份文档的集合。每个都有 6 个 DateTime、1 个 Boolean、8 个 Double、9 个 Integer 和 6 个 String 字段。我正在尝试建立以下索引:

db.MyCollection.ensureIndex( 
    { "String1" : 1, "String2" : 1, "String3" : 1, "DateTime1" : 1, "Integer1" : 1, "DateTime2" : 1 }, 
    {background: true} 
);

运行了 5 天后只完成了一半。

服务器运行 Windows Server Enterprise,具有 4TB 磁盘空间和 256GB RAM。很少有其他进程正在针对数据库运行。没有分片或其他特殊配置。

有什么办法可以加快速度吗? (不删除 background = true 限定符,因为我不希望它完全将我排除在数据库之外,在这种情况下它会这样做。)

最佳答案

误解

速度

即使不谈论多键索引,也会发生这种情况。正在进行大规模的表扫描。因此 mongoDB 遍历文档,尝试找到要索引的字段,评估该字段(如果当前文档中不存在该字段,则为 null)并将其结果写入不少于 6 个文件我们说的是 6 个指数。算一算:200.000.000/86400 * 5 告诉我们 mongoDB 大约 每秒 460 个文档或只需要 每个文档 2.2 毫秒。我不会说那么慢。这可能需要很长时间,但并不慢。

{background:true}

使用此参数不会将您锁定在数据库之外。恰恰相反,这在文档中有明确说明,都在 Index Creation section 上。在 tutorial section on creating indices in the background .但是,有一句话很容易被误解:

Also, no operation that requires a read or write lock on all databases (e.g. listDatabases) can occur during a foreground index build.

这意味着您不能执行适用于所有数据库的操作并且需要读取或写入锁。

改进方法( future )

分片集群

使用具有副本集分片的共享集群。除了提高性能外,它易于设置并具有多种优势。其中之一是易于扩展,添加分片(从而为集群增加空间和计算能力)非常很容易。备份对应用程序的影响较小。不再存在单点故障(如果处理得当,这甚至适用于整个数据中心规模的中断)。

使用不同的文件系统

抱歉,在 Windows Server 上运行依赖磁盘 io 性能的应用程序对我来说毫无意义 - 完全没有。 ExtFS4 或 XFS 比 NTFS 或 ReFS 快 25% 到 40%,具体取决于优化。这对像您的用例一样依赖磁盘 IO 的应用程序产生了真正的差异。我们谈论的是几天的事情(甚至没有考虑到更有效的内存映射和 Linux 系统上操作系统的内存消耗减少)。

{background:true}

虽然这并不能真正提高性能(实际上在后台构建索引比在前台花费更长的时间,原因很明显),但您的应用程序在构建索引期间保持可用。因此,根据您的需要,这可能是一个可行的选择。

旁注:使用 mongoDB 时垂直扩展是一个Bad Idea™,因为它被明确设计为水平扩展。这尤其适用于像您这样的大型集合,因为并行处理将大大提高您的应用程序的性能。

关于performance - MongoDB大索引构建很慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23815863/

有关performance - MongoDB大索引构建很慢的更多相关文章

  1. ruby - 在 Ruby 中构建长字符串的简洁方法 - 2

    在编写Ruby(客户端脚本)时,我看到了三种构建更长字符串的方法,包括行尾,所有这些对我来说“闻起来”有点难看。有没有更干净、更好的方法?变量递增。ifrender_quote?quote="NowthatthereistheTec-9,acrappyspraygunfromSouthMiami."quote+="ThisgunisadvertisedasthemostpopularguninAmericancrime.Doyoubelievethatshit?"quote+="Itactuallysaysthatinthelittlebookthatcomeswithit:themo

  2. ruby - 使用 rbenv 和 ruby​​-build 构建 ruby​​ 失败,出现 undefined symbol : SSLv2_method - 2

    我正在尝试在配备ARMv7处理器的SynologyDS215j上安装ruby​​2.2.4或2.3.0。我用了optware-ng安装gcc、make、openssl、openssl-dev和zlib。我根据README中的说明安装了rbenv(版本1.0.0-19-g29b4da7)和ruby​​-build插件。.这些是随optware-ng安装的软件包及其版本binutils-2.25.1-1gcc-5.3.0-6gconv-modules-2.21-3glibc-opt-2.21-4libc-dev-2.21-1libgmp-6.0.0a-1libmpc-1.0.2-1libm

  3. ruby-on-rails - 协会的 Rails 索引 - 2

    我发现自己需要这个。假设cart是一个包含用户列表的模型。defindex_of_itemcart.users.each_with_indexdo|u,i|ifu==current_userreturniendend获取此类关联索引的更简单方法是什么? 最佳答案 indexArray上的方法与您的index_of_item方法相同,例如cart.users.index(current_user)返回数组中第一个对象的索引==给obj。如果未找到匹配项,则返回nil。 关于ruby-on-

  4. ruby - Rails -- :id attribute? 所需的数据库索引 - 2

    因此,当我遵循MichaelHartl的RubyonRails教程时,我注意到在用户表中,我们为:email属性添加了一个唯一索引,以提高find的效率方法,因此它不会逐行搜索。到目前为止,我们一直在根据情况使用find_by_email和find_by_id进行搜索。然而,我们从未为:id属性设置索引。:id是否自动索引,因为它在默认情况下是唯一的并且本质上是顺序的?或者情况并非如此,我应该为:id搜索添加索引吗? 最佳答案 大多数数据库(包括sqlite,这是RoR中的默认数据库)会自动索引主键,对于RailsMigration

  5. ruby-on-rails - Resque - 类的未定义方法 'perform' - 2

    我目前对后台队列不太满意。我正在尝试让Resque工作。我已经安装了redis和Resquegem。Redis正在运行。一个worker正在运行(rakeresque:workQUEUE=simple)。使用Web界面,我可以看到工作人员正在运行并等待工作。当我运行“rakeget_updates”时,作业已排队但失败了。我已经用defself.perform和defperform试过了。发条.raketask:get_updates=>:environmentdoResque.enqueue(GetUpdates)end类文件(app/workers/get_updates.rb)c

  6. ruby - 引用具有指定索引的枚举器值 - 2

    假设我有一个可枚举对象enum,现在我想获取第三个项目。我知道一种通用方法是转换成数组,然后使用索引访问,如:enum.to_a[2]但这种方式会创建一个临时数组,效率可能很低。现在我使用:enum.each_with_index{|v,i|breakvifi==2}但这非常丑陋和多余。执行此操作最有效的方法是什么? 最佳答案 你可以使用take剥离前三个元素,然后剥离last从take给你的数组中获取第三个元素:third=enum.take(3).last如果您根本不想生成任何数组,那么也许:#Ifenumisn'tanEnum

  7. ruby-on-rails - 如何构建复杂的 Rails 系统 - 2

    关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭8年前。Improvethisquestion我们有以下(以及更多)系统,我们将数据从一个应用推送/拉取到另一个:托管CRM(InsideSales.com)Asterisk电话系统(内部)横幅广告系统(openx,我们托管)潜在客户生成系统(自行开发)电子商务商店(spree,我们托管)工作板(本土)一些工作网站抓取+入站工作提要电子邮件传送系统(如Mailchimp,自主开发)事件管理系统(如eventbrite,自主开发)仪表板系统(大量图表和

  8. ruby - 将 Logstash 中的时间戳时区转换为输出索引名称 - 2

    在我的场景中,Logstash收到的系统日志行的“时间戳”是UTC,我们在Elasticsearch输出中使用事件“时间戳”:output{elasticsearch{embedded=>falsehost=>localhostport=>9200protocol=>httpcluster=>'elasticsearch'index=>"syslog-%{+YYYY.MM.dd}"}}我的问题是,在UTC午夜,Logstash在外时区(GMT-4=>America/Montreal)结束前将日志发送到不同的索引,并且索引在20小时(晚上8点)之后没有日志,因为“时间戳”是UTC。我们已

  9. ruby-on-rails -/usr/local/lib/libz.1.dylib,文件是为 i386 构建的,它不是被链接的体系结构 (x86_64) - 2

    在我的mac上安装几个东西时遇到这个问题,我认为这个问题来自将我的豹子升级到雪豹。我认为这个问题也与macports有关。/usr/local/lib/libz.1.dylib,filewasbuiltfori386whichisnotthearchitecturebeinglinked(x86_64)有什么想法吗?更新更具体地说,这发生在安装nokogirigem时日志看起来像:xslt_stylesheet.c:127:warning:passingargument1of‘Nokogiri_wrap_xml_document’withdifferentwidthduetoproto

  10. ruby - 从特定索引开始迭代数组 - 2

    我想从特定索引开始遍历数组。我该怎么做?myj.eachdo|temp|...end 最佳答案 执行以下操作:your_array[your_index..-1].eachdo|temp|###end 关于ruby-从特定索引开始迭代数组,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/44151758/

随机推荐