c++ - 为什么 memmove 比 memcpy 快？

coder 2023-04-26 原文

我正在调查一个应用程序中的性能热点，该应用程序花费了 50% 它在 memmove(3) 中的时间。应用程序插入数百万个 4 字节整数进入排序数组，并使用 memmove 将数据“向右”移动以便为插入的值腾出空间。

我的期望是复制内存非常快，我很惊讶这么多时间都花在了 memmove 上。但后来我想到了 memmove 很慢，因为它正在移动重叠区域，必须实现在一个紧密的循环中，而不是复制大内存页。我写了一个小微基准测试，以确定两者之间是否存在性能差异 memcpy 和 memmove，期待 memcpy 胜出。

我在两台机器(核心 i5、核心 i7)上运行了我的基准测试，发现 memmove 是实际上比 memcpy 快，在较旧的核心 i7 上甚至快近两倍! 现在我正在寻找解释。

这是我的基准。它使用 memcpy 复制 100 mb，然后使用 memmove 移动大约 100 mb；源和目标重叠。各种“距离” 源和目标都试过了。每个测试运行 10 次，平均打印时间。

https://gist.github.com/cruppstahl/78a57cdf937bca3d062c

这是 Core i5 上的结果(Linux 3.5.0-54-generic#81~precise1-Ubuntu SMP x86_64 GNU/Linux，gcc 是 4.6.3 (Ubuntu/Linaro 4.6.3-1ubuntu5)。号码括号中是源和目标之间的距离(间隙大小):

memcpy        0.0140074
memmove (002) 0.0106168
memmove (004) 0.01065
memmove (008) 0.0107917
memmove (016) 0.0107319
memmove (032) 0.0106724
memmove (064) 0.0106821
memmove (128) 0.0110633

Memmove 是作为 SSE 优化的汇编代码实现的，从后面复制到前面。它使用硬件预取将数据加载到缓存中，并且将 128 个字节复制到 XMM 寄存器，然后将它们存储在目标位置。

( memcpy-ssse3-back.S , 第 1650 行 ff)

L(gobble_ll_loop):
    prefetchnta -0x1c0(%rsi)
    prefetchnta -0x280(%rsi)
    prefetchnta -0x1c0(%rdi)
    prefetchnta -0x280(%rdi)
    sub $0x80, %rdx
    movdqu  -0x10(%rsi), %xmm1
    movdqu  -0x20(%rsi), %xmm2
    movdqu  -0x30(%rsi), %xmm3
    movdqu  -0x40(%rsi), %xmm4
    movdqu  -0x50(%rsi), %xmm5
    movdqu  -0x60(%rsi), %xmm6
    movdqu  -0x70(%rsi), %xmm7
    movdqu  -0x80(%rsi), %xmm8
    movdqa  %xmm1, -0x10(%rdi)
    movdqa  %xmm2, -0x20(%rdi)
    movdqa  %xmm3, -0x30(%rdi)
    movdqa  %xmm4, -0x40(%rdi)
    movdqa  %xmm5, -0x50(%rdi)
    movdqa  %xmm6, -0x60(%rdi)
    movdqa  %xmm7, -0x70(%rdi)
    movdqa  %xmm8, -0x80(%rdi)
    lea -0x80(%rsi), %rsi
    lea -0x80(%rdi), %rdi
    jae L(gobble_ll_loop)

为什么 memmove 比 memcpy 快？我希望 memcpy 复制内存页面，这应该比循环快得多。在最坏的情况下，我希望 memcpy 和 memmove 一样快。

PS:我知道我不能在我的代码中用 memcpy 替换 memmove。我知道代码示例混合了 C 和 C++。这个问题真的只是为了学术目的。

更新 1

我根据不同的答案进行了一些测试。

两次运行 memcpy 时，第二次运行速度比第一次快。
当“触摸”memcpy 的目标缓冲区时 (memset(b2, 0, BUFFERSIZE...))，那么 memcpy 的第一次运行也更快。
memcpy 仍然比 memmove 慢一点。

结果如下:

memcpy        0.0118526
memcpy        0.0119105
memmove (002) 0.0108151
memmove (004) 0.0107122
memmove (008) 0.0107262
memmove (016) 0.0108555
memmove (032) 0.0107171
memmove (064) 0.0106437
memmove (128) 0.0106648

我的结论:根据@Oliver Charlesworth 的评论，操作系统必须在第一次访问 memcpy 目标缓冲区时提交物理内存(如果有人知道如何“证明”这一点，请添加一个答案!)。此外，正如@Mats Petersson 所说，memmove 比 memcpy 缓存更友好。

感谢所有精彩的回答和评论!

最佳答案

您的 memmove 调用将内存移动 2 到 128 个字节，而您的 memcpy 源和目标完全不同。不知何故，这就是性能差异的原因:如果你复制到同一个地方，你会看到 memcpy 最终可能会快一点，例如在 ideone.com :

memmove (002) 0.0610362
memmove (004) 0.0554264
memmove (008) 0.0575859
memmove (016) 0.057326
memmove (032) 0.0583542
memmove (064) 0.0561934
memmove (128) 0.0549391
memcpy 0.0537919

尽管其中几乎没有任何内容 - 没有证据表明写回内存中已经出现故障的页面会产生很大的影响，而且我们当然没有看到时间减半......但它确实表明与苹果换苹果相比，让 memcpy 不必要地变慢是没有错的。

关于c++ - 为什么 memmove 比 memcpy 快？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28623895/

有关c++ - 为什么 memmove 比 memcpy 快？的更多相关文章

ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996？但是 4.2%2==0.2 - 2
为什么4.1%2返回0.0999999999999996？但是4.2%2==0.2。最佳答案参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意，这不是与Ruby相关的问题，而是与所有编程语言相关的问题，因为它来自计算机表示实数的方式。关于ruby-为什么4.1%2使用Ruby返
ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server
ruby - ruby 中的 TOPLEVEL_BINDING 是什么？ - 2
它不等于主线程的binding，这个toplevel作用域是什么？此作用域与主线程中的binding有何不同？>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案事实是，TOPLEVEL_BINDING始终引用Binding的预定义全局实例，而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层，它们都包含相同的绑定(bind)，但它们不是同一个对象，您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput
ruby - Infinity 和 NaN 的类型是什么？ - 2
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN？它们是对象、关键字还是其他东西？最佳答案您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象，为什么它会起作用？ - 2
如果您尝试在Ruby中的nil对象上调用方法，则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而，有一个tryRails中的方法，如果它被发送到一个nil对象，它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常？最佳答案像Ruby中的所有其他对象
ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串？ - 2
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串？SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复？

c++ - 为什么 memmove 比 memcpy 快？

更新 1

有关c++ - 为什么 memmove 比 memcpy 快？的更多相关文章

随机推荐