草庐IT

mongodb - 为什么 MongoDB 在负载测试期间没有响应?

coder 2023-05-04 原文

我的问题是 MongoDB 在生产中变得无响应并拒绝连接。

在测试中,我能够通过向我的应用发送大量请求来始终如一地重现“锁定”。

这是 mongostat 的示例输出:

     0      0      0      0       0       1       0   1.3g   1.8g   177m      0        0          0       0|0     0|0    62b     1k    18   19:40:11
     0      0      0      0       0       1       0   1.3g   1.8g   177m      0        0          0       0|0     0|0    62b     1k    18   19:40:12
--------------LOAD TEST BEGINS-----------------------   
     1     56      0      0       1      58       0   1.3g  1.81g   177m      0        0          0       0|0     0|0    10k   302k    18   19:40:13
    10    116      0      0       2     127       0   1.3g  1.81g   177m      0        0          0       0|0     1|0    32k   263k    19   19:40:14
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
   206    431      0      0       2     638       0   1.3g  1.82g   177m      0      1.1          0       0|0     0|0   206k   339k    22   19:40:15
   331    649      0      0       2     983       0   1.3g  1.81g   177m      0        1          0       0|0     0|0   317k   521k    21   19:40:16
   367    723      0      0      10    1090       0   1.3g  1.81g   177m      0      0.9          0       0|1     1|1   297k     1m    20   19:40:17
   500    961      0      0      11    1461       0   1.3g  1.81g   177m      0      1.2          0       0|0     0|0   390k     1m    19   19:40:18
   543   1073      0      0      10    1618       0   1.3g  1.82g   177m      0      1.2          0       0|0     2|0   433k     1m    21   19:40:19
   461    909      0      0      11    1370       0   1.3g  1.81g   177m      0      1.1          0       0|0     2|0   365k     1m    20   19:40:20
   347    685      0      0       6    1033       0   1.3g  1.81g   177m      0      0.8          0       0|0     1|0   411k   962k    21   19:40:21
   482    938      0      0       9    1421       0   1.3g  1.81g   177m      0      1.1          0       0|0     0|0   492k     1m    20   19:40:22
   444    877      0      0      10    1322       0   1.3g  1.81g   177m      0      1.1          0       0|0     0|1   479k     1m    22   19:40:23
   528   1019      0      0       9    1549       0   1.3g  1.81g   177m      0      1.2          0       0|0     0|0   446k     1m    21   19:40:24
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
   520   1033      0      0      10    1554       0   1.3g  1.81g   177m      0      1.2          0       0|0     1|0   418k     1m    22   19:40:25
   448    878      0      0      10    1326       0   1.3g  1.81g   177m      0      1.2          0       0|0     1|0   349k     1m    22   19:40:26
   503    979      0      0       8    1483       0   1.3g  1.82g   177m      0      1.3          0       0|0     1|0   397k     1m    21   19:40:27
   379    743      0      0      10    1123       0   1.3g  1.81g   177m      0        1          0       0|0     0|0   315k     1m    22   19:40:28
   456    896      0      0       7    1354       0   1.3g  1.81g   177m      0      1.1          0       0|0     0|0   436k     1m    22   19:40:29
   371    715      0      0      10    1086       0   1.3g  1.81g   175m      0      0.9          0       0|0     0|0   299k     1m    20   19:40:30
   505    993      0      0       7    1499       0   1.3g  1.81g   175m      0      1.2          0       0|0     2|0   394k     1m    21   19:40:31
   493   1023      0      0      10    1519       0   1.3g  1.82g   175m      0      1.1          0       0|0     1|0   392k     1m    22   19:40:32
   426    868      0      0      11    1295       0   1.3g  1.81g   170m      0        1          0       0|0     1|0   363k     1m    21   19:40:33
   352    772      0      0       7    1125       0   1.3g  1.81g   163m     19      4.4          0       0|1     0|1   368k     1m    22   19:40:34
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
   330    656      0      0       5     985       0   1.3g  1.81g   159m      4      1.5          0       0|0     0|0   325k   876k    19   19:40:35
   398    817      0      0       8    1218       0   1.3g  1.81g   155m      9      1.3          0       0|0     1|0   372k     1m    21   19:40:36
   464   1015      0      0       8    1479       0   1.3g  1.81g   155m      2      1.2          0       0|0     1|0   381k     1m    21   19:40:37
   457    915      0      0      11    1372       0   1.3g  1.81g   155m      0      1.1          0       0|0     0|0   356k     1m    22   19:40:38
   458    960      0      0       7    1419       0   1.3g  1.83g   155m      0      1.1          0       0|0     0|0   376k     1m    22   19:40:39
   391    760      0      0      11    1153       0   1.3g  1.81g   155m      0        1          0       0|0     1|0   321k     1m    21   19:40:40
   315    639      0      0       5     956       0   1.3g  1.81g   155m      0      0.8          0       0|0     0|0   325k   877k    21   19:40:41
   303    696      0      0       7     998       0   1.3g  1.81g   155m      0      0.8          0       0|0     0|0   279k     1m    21   19:40:42
   388    772      0      0       8    1163       0   1.3g  1.81g   155m      0        1          0       0|0     0|0   308k     1m    20   19:40:43
   273    623      0      0       7     895       0   1.3g  1.81g   155m      0      0.7          0       0|0     2|0   232k     1m    20   19:40:44
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
   397    796      0      0       7    1194       0   1.3g  1.81g   155m      0      0.9          0       0|0     0|0   311k     1m    19   19:40:45
   347    754      0      0       4    1103       0   1.3g  1.81g   155m      0      0.9          0       0|0     0|0   329k   771k    20   19:40:46
   336    700      0      0       8    1042       0   1.3g  1.82g   160m     20      0.8          0       2|2     3|2   370k     1m    23   19:40:47
   272    525      0      0       5     805       0   1.3g  1.79g   167m    188      0.6          0       0|0     0|0   306k   818k    18   19:40:48
   103    246      0      0       1     350       0   1.3g  1.78g   166m      0      0.4          0       0|0     0|0   136k   234k    15   19:40:49
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:50
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:51
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:52
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:53
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:54
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:55
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:56
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:57
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:58
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:40:59
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:00
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:01
     0      3      0      0       0       4       0   1.3g  1.78g   166m      0        0          0       0|0     0|0   775b     4k    15   19:41:02
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:03
     0      0      0      0       0       1       1   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:04
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:05
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:06
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:07
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:08
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:09
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:10
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:11
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:12
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:13
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:14
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:15
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:16
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:17
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:18
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:19
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:20
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:21
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:22
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:23
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:24
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:25
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:26
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:27
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:28
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:29
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:30
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:31
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:32
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:33
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:34
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:35
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:36
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:37
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:38
     0      0      0      0       0       1       0   1.3g  1.78g   166m      0        0          0       0|0     0|0    62b     1k    15   19:41:39
     0     28      0      0       0      29       0   1.3g  1.78g   166m      0        0          0       0|0     0|0     5k    27k    15   19:41:40
    86    234      0      0       1     322       0   1.3g  1.79g   166m      0      0.2          0       0|0     1|0   145k   217k    17   19:41:41
   216    445      0      0       5     663       0   1.3g  1.79g   167m      0      0.5          0       0|0     0|0   220k   807k    16   19:41:42
   302    612      0      0       6     916       0   1.3g  1.79g   167m      0      0.6          0       0|0     0|0   236k   950k    16   19:41:43
   113    247      0      0       1     362       0   1.3g  1.79g   167m      0      0.2          0       0|0     0|0    95k   192k    17   19:41:44
insert  query update delete getmore command flushes mapped  vsize    res faults locked % idx miss %     qr|qw   ar|aw  netIn netOut  conn       time
    38     63      0      0       2     103       0   1.3g  1.79g   167m      0        0          0       0|0     0|0    26k   289k    16   19:41:45
--------------LOAD TEST ENDS----------------------- 
     0      0      0      0       0       2       0   1.3g  1.79g   167m      0        0          0       0|0     0|0   124b     2k    16   19:41:46
     0      0      0      0       0       2       0   1.3g  1.79g   167m      0        0          0       0|0     0|0   124b     2k    16   19:41:47
     0      0      0      0       0       2       0   1.3g  1.79g   167m      0        0          0       0|0     0|0   124b     2k    16   19:41:48
     0      0      0      0       0       2       0   1.3g  1.79g   167m      0        0          0       0|0     0|0   124b     2k    16   19:41:49

如您所见,在负载测试的中间,读取和写入几乎为零。在此期间,我无法通过 mongo 或 mongostat 本地连接到 MongoDB(连接被拒绝)。如您所见,连接数非常低,mongo 的最大连接数为 16000 个。

我能够始终如一地重现这一点。但是,每次“锁定”都是不同的长度。我观察到了 51 秒、20 秒、28 秒。在每种情况下,我仍然通过 mongostat 连接到 mongo(并接收输出),但新连接将被拒绝。

user@myhostname:~# mongostat
couldn't connect to [127.0.0.1] couldn't connect to server 127.0.0.1

可能是什么问题?我正在运行 MongoDB v1.8.2。

顺便说一句,我能够重现一个类似的问题,其中命令不会完全下降,但数量很少并且波动很大。

最佳答案

已修复:

sudo sysctl net.ipv4.tcp_tw_reuse=1

然后,重启 mongo。

或者,您可以将其添加到/etc/sysctl.conf(这样它将在重新启动时运行):

net.ipv4.tcp_tw_reuse=1

然后运行这个来重新加载(无需重新启动)

sudo sysctl -p /etc/sysctl.conf

此“修复”将禁用 TCP 套接字(服务器范围)的时间等待状态。所以,这根本不是解决办法。但是,在 mongo 使用 SO_LINGER 减少它们的 timewait 状态之前,大量的服务器套接字将在 TIME_WAIT 状态中汇集,并且对于新连接仍然不可用。您可以通过以下方式查看 TIME_WAIT 中的连接数:

netstat -an | grep TIME_WAIT | wc -l

这样,我可以看到它在大约 28k TIME_WAIT 连接时失败。使用这个内核标志:

sysctl net.ipv4.ip_local_port_range="18000 65535"

服务器在 45k 连接时失败。因此,为了更轻松地重现错误,您可以将范围降低到 200 或较小的值。

所以,这个的结果毕竟是一个编程问题(你可以从最后一个链接看到):

TCP option SO_LINGER (zero) - when it's required

http://alas.matf.bg.ac.rs/manuals/lspe/snode=105.html

关于mongodb - 为什么 MongoDB 在负载测试期间没有响应?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18664166/

有关mongodb - 为什么 MongoDB 在负载测试期间没有响应?的更多相关文章

  1. ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法? - 2

    类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc

  2. ruby-on-rails - 使用 Ruby on Rails 进行自动化测试 - 最佳实践 - 2

    很好奇,就使用ruby​​onrails自动化单元测试而言,你们正在做什么?您是否创建了一个脚本来在cron中运行rake作业并将结果邮寄给您?git中的预提交Hook?只是手动调用?我完全理解测试,但想知道在错误发生之前捕获错误的最佳实践是什么。让我们理所当然地认为测试本身是完美无缺的,并且可以正常工作。下一步是什么以确保他们在正确的时间将可能有害的结果传达给您? 最佳答案 不确定您到底想听什么,但是有几个级别的自动代码库控制:在处理某项功能时,您可以使用类似autotest的内容获得关于哪些有效,哪些无效的即时反馈。要确保您的提

  3. ruby-on-rails - Rails - 子类化模型的设计模式是什么? - 2

    我有一个模型:classItem项目有一个属性“商店”基于存储的值,我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式?如果方法中没有大的if-else语句,这是如何干净利落地完成的? 最佳答案 通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.co

  4. ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby​​ 中生成它们? - 2

    我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案 他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%

  5. ruby - 解析 RDFa、微数据等的最佳方式是什么,使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2

    我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i

  6. ruby - 难道Lua没有和Ruby的method_missing相媲美的东西吗? - 2

    我好像记得Lua有类似Ruby的method_missing的东西。还是我记错了? 最佳答案 表的metatable的__index和__newindex可以用于与Ruby的method_missing相同的效果。 关于ruby-难道Lua没有和Ruby的method_missing相媲美的东西吗?,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/7732154/

  7. ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996?但是 4.2%2==0.2 - 2

    为什么4.1%2返回0.0999999999999996?但是4.2%2==0.2。 最佳答案 参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意,这不是与Ruby相关的问题,而是与所有编程语言相关的问题,因为它来自计算机表示实数的方式。 关于ruby-为什么4.1%2使用Ruby返

  8. ruby - 使用 C 扩展开发 ruby​​gem 时,如何使用 Rspec 在本地进行测试? - 2

    我正在编写一个包含C扩展的gem。通常当我写一个gem时,我会遵循TDD的过程,我会写一个失败的规范,然后处理代码直到它通过,等等......在“ext/mygem/mygem.c”中我的C扩展和在gemspec的“扩展”中配置的有效extconf.rb,如何运行我的规范并仍然加载我的C扩展?当我更改C代码时,我需要采取哪些步骤来重新编译代码?这可能是个愚蠢的问题,但是从我的gem的开发源代码树中输入“bundleinstall”不会构建任何native扩展。当我手动运行rubyext/mygem/extconf.rb时,我确实得到了一个Makefile(在整个项目的根目录中),然后当

  9. ruby-on-rails - rails 目前在重启后没有安装 - 2

    我有一个奇怪的问题:我在rvm上安装了ruby​​onrails。一切正常,我可以创建项目。但是在我输入“railsnew”时重新启动后,我有“程序'rails'当前未安装。”。SystemUbuntu12.04ruby-v"1.9.3p194"gemlistactionmailer(3.2.5)actionpack(3.2.5)activemodel(3.2.5)activerecord(3.2.5)activeresource(3.2.5)activesupport(3.2.5)arel(3.0.2)builder(3.0.0)bundler(1.1.4)coffee-rails(

  10. ruby - Ruby 的 Hash 在比较键时使用哪种相等性测试? - 2

    我有一个围绕一些对象的包装类,我想将这些对象用作散列中的键。包装对象和解包装对象应映射到相同的键。一个简单的例子是这样的:classAattr_reader:xdefinitialize(inner)@inner=innerenddefx;@inner.x;enddef==(other)@inner.x==other.xendenda=A.new(o)#oisjustanyobjectthatallowso.xb=A.new(o)h={a=>5}ph[a]#5ph[b]#nil,shouldbe5ph[o]#nil,shouldbe5我试过==、===、eq?并散列所有无济于事。

随机推荐