linux - MPI_SEND 占用很大一部分虚拟内存

coder 2023-06-18 原文

在大量内核上调试我的程序时，我遇到了非常奇怪的虚拟内存不足错误。我的调查导致代码和平，主人向每个奴隶发送小消息。然后我写了一个小程序，其中 1 个主机使用 MPI_SEND 发送 10 个整数，所有从机使用 MPI_RECV 接收它。比较MPI_SEND前后的/proc/self/status文件，内存大小的差异是巨大的!最有趣的事情(它使我的程序崩溃)是此内存不会在 MPI_Send 之后释放，并且仍然占用大量空间。

有什么想法吗？

 System memory usage before MPI_Send, rank: 0
Name:   test_send_size                                                                                
State:  R (running)                                                                                  
Pid:    7825                                                                                           
Groups: 2840                                                                                        
VmPeak:   251400 kB                                                                                 
VmSize:   186628 kB                                                                                 
VmLck:        72 kB                                                                                  
VmHWM:      4068 kB                                                                                  
VmRSS:      4068 kB                                                                                  
VmData:    71076 kB                                                                                 
VmStk:        92 kB                                                                                  
VmExe:       604 kB                                                                                  
VmLib:      6588 kB                                                                                  
VmPTE:       148 kB                                                                                  
VmSwap:        0 kB                                                                                 
Threads:    3                                                                                          

 System memory usage after MPI_Send, rank 0
Name:   test_send_size                                                                                
State:  R (running)                                                                                  
Pid:    7825                                                                                           
Groups: 2840                                                                                        
VmPeak:   456880 kB                                                                                 
VmSize:   456872 kB                                                                                 
VmLck:    257884 kB                                                                                  
VmHWM:    274612 kB                                                                                  
VmRSS:    274612 kB                                                                                  
VmData:   341320 kB                                                                                 
VmStk:        92 kB                                                                                  
VmExe:       604 kB                                                                                  
VmLib:      6588 kB                                                                                  
VmPTE:       676 kB                                                                                  
VmSwap:        0 kB                                                                                 
Threads:    3

最佳答案

这是几乎所有在 InfiniBand 上运行的 MPI 实现的预期行为。 IB RDMA 机制要求数据缓冲区应该被注册，即它们首先被锁定在物理内存中的一个固定位置，然后驱动程序告诉 InfiniBand HCA 如何将虚拟地址映射到物理内存。注册供 IB HCA 使用的内存非常复杂，因此过程非常缓慢，这就是为什么大多数 MPI 实现从不注销曾经注册过的内存，希望相同的内存稍后用作源或数据目标。如果注册的内存是堆内存，它永远不会返回给操作系统，这就是为什么您的数据段的大小只会增加。

尽可能重复使用发送和接收缓冲区。请记住，通过 InfiniBand 进行的通信会产生高内存开销。大多数人并没有真正考虑过这一点，而且通常没有很好的文档记录，但是 InfiniBand 使用了许多特殊的数据结构(队列)，这些数据结构分配在进程的内存中，并且这些队列随着进程的数量而显着增长。在某些完全连接的情况下，队列内存量可能非常大，以至于实际上没有内存留给应用程序。

有一些参数可以控制英特尔 MPI 使用的 IB 队列。在您的案例中，最重要的是 I_MPI_DAPL_BUFFER_NUM，它控制预分配和预注册内存的数量。它的默认值为 16，因此您可能希望减小它。但是请注意可能的性能影响。您还可以通过将 I_MPI_DAPL_BUFFER_ENLARGEMENT 设置为 1 来尝试使用动态预分配缓冲区大小。启用此选项后，英特尔 MPI 将首先注册小缓冲区，然后在需要时增加它们。另请注意，IMPI 延迟打开连接，这就是为什么您仅在调用 MPI_Send 后才会看到已用内存大幅增加的原因。

如果不使用 DAPL 传输，例如改用 ofa 传输，您无能为力。您可以通过将 I_MPI_OFA_USE_XRC 设置为 1 来启用 XRC 队列。这应该以某种方式减少使用的内存。如果您的程序的通信图未完全连接(完全连接的程序是一个完全连接的程序，其中每个等级与所有其他等级对话)。

关于linux - MPI_SEND 占用很大一部分虚拟内存，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13088772/

有关linux - MPI_SEND 占用很大一部分虚拟内存的更多相关文章

ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Ruby 中的内存模型 - 2
ruby如何管理内存。例如:如果我们在执行过程中采用C程序，则以下是内存模型。类似于这个ruby如何处理内存。C:__________________|||stack|||------------------||||------------------|||||Heap|||||__________________|||data|__________________|text|__________________Ruby:? 最佳答案 Ruby中没有“内存”这样的东西。Class#allocate分配一个对象并返回该对象。这就是程序
ruby - 为什么人们使用 `Module.send(:prepend, …)` ？ - 2
我正在学习如何在我的Ruby代码中使用Module.prepend而不是alias_method_chain，我注意到有些人使用send调用它(example):ActionView::TemplateRenderer.send(:prepend,ActionViewTemplateRendererWithCurrentTemplate)而其他人直接调用它(example):ActionView::TemplateRenderer.prepend(ActionViewTemplateRendererWithCurrentTemplate)而且，虽然我还没有看到任何人使用这种风格，但我从
ruby - 使用 `+=` 和 `send` 方法 - 2
如何将send与+=一起使用？a=20;a.send"+=",10undefinedmethod`+='for20:Fixnuma=20;a+=10=>30 最佳答案恐怕你不能。+=不是方法，而是语法糖。参见http://www.ruby-doc.org/docs/ProgrammingRuby/html/tut_expressions.html它说Incommonwithmanyotherlanguages,Rubyhasasyntacticshortcut:a=a+2maybewrittenasa+=2.你能做的最好的事情是:
ruby - Ruby 的 AST 中的 'send' 关键字是什么意思？ - 2
我正在尝试学习Ruby词法分析器和解析器(whitequarkparser)以了解更多有关从Ruby脚本进一步生成机器代码的过程。在解析以下Ruby代码字符串时。defadd(a,b)returna+bendputsadd1,2它导致以下S表达式符号。s(:begin,s(:def,:add,s(:args,s(:arg,:a),s(:arg,:b)),s(:return,s(:send,s(:lvar,:a),:+,s(:lvar,:b)))),s(:send,nil,:puts,s(:send,nil,:add,s(:int,1),s(:int,3))))任何人都可以向我解释生成的
Ruby:如何使用带有散列的 'send' 方法调用方法？ - 2
假设我有一个类A，里面有一些方法。假设stringmethodName是这些方法之一，我已经知道我想给它什么参数。它们在散列中{'param1'=>value1,'param2'=>value2}所以我有:params={'param1'=>value1,'param2'=>value2}a=A.new()a.send(methodName,value1,value2)#callmethodnamewithbothparams我希望能够通过传递我的哈希以某种方式调用该方法。这可能吗？最佳答案确保methodName是一个符号，而
键删除后 ruby 哈希内存泄漏 - 2
你好，我无法成功如何在散列中删除key后释放内存。当我从哈希中删除键时，内存不会释放，也不会在手动调用GC.start后释放。当从Hash中删除键并且这些对象在某处泄漏时，这是预期的行为还是GC不释放内存？如何在Ruby中删除Hash中的键并在内存中取消分配它？例子:irb(main):001:0>`ps-orss=-p#{Process.pid}`.to_i=>4748irb(main):002:0>a={}=>{}irb(main):003:0>1000000.times{|i|a[i]="test#{i}"}=>1000000irb(main):004:0>`ps-orss=-p
ruby-on-rails - HTTParty 的内存问题和下载大文件 - 2
这会导致Ruby出现内存问题吗？我知道如果大小超过10KB，Open-URI会写入TempFile。但是HTTParty会在写入TempFile之前尝试将整个PDF保存到内存吗？src=Tempfile.new("file.pdf")src.binmodesrc.writeHTTParty.get("large_file.pdf").parsed_response 最佳答案您可以使用Net::HTTP。参见thedocumentation(特别是标题为“流媒体响应机构”的部分)。这是文档中的示例:uri=URI('http://e
arrays - 字符串数组中字符串第一部分的总和 - 2
我有一个字符串数组，我需要从中提取第一个单词，将它们转换为整数并获得它们的总和。示例:["5Apple","5Orange","15Grapes"]预期输出=>25我的尝试:["5","5","15"].map(&:to_i).sum 最佳答案我从你的问题中找到了答案。["5Apple","5Orange","15Grapes"].map(&:to_i).sum在数组中，如果存在任何整数可转换值，那么它将自动转换为整数。关于arrays-字符串数组中字符串第一部分的总和，我们在Sta

linux - MPI_SEND 占用很大一部分虚拟内存

有关linux - MPI_SEND 占用很大一部分虚拟内存的更多相关文章

随机推荐