c++ - 我试过 : valgrind, _GLIBCXX_DEBUG，-fno-strict-aliasing；我该如何调试这个错误？

coder 2024-02-21 原文

我有一个非常奇怪的错误，我花了几天时间试图弄清楚，所以现在我想看看是否有人有任何意见可以帮助我理解发生了什么。

一些背景。我正在从事一个软件项目，该项目涉及使用 Boost 1.45 向 Python 2.7.1 添加 C++ 扩展，因此我的所有代码都通过 Python 解释器运行。最近，我对破坏了我们的回归测试之一的代码进行了更改。这个回归测试可能对数值波动过于敏感(例如不同的机器)，所以我应该解决这个问题。但是，由于此回归在产生原始回归结果的同一台机器/编译器上发生故障，因此我将结果的差异追溯到这段数字代码(可证实与我更改的代码无关):

c[3] = 0.25 * (-3 * df[i-1] - 23 * df[i] - 13 * df[i+1] - df[i+2]
               - 12 * f[i-1] - 12 * f[i] + 20 * f[i+1] + 4 * f[i+2]);
printf("%2li %23a : %23a %23a %23a %23a : %23a %23a %23a %23a\n",i,
       c[3],
       df[i-1],df[i],df[i+1],df[i+2],f[i-1],f[i],f[i+1],f[i+2]);

构造一些数值表。请注意:

%a 打印提供精确的 ascii 表示
左边(lhs)是c[3]，rhs是其他8个值。
下面的输出是 i 的值远离 f、df 的边界
此代码存在于 i 上的循环中，它本身嵌套了多个层(因此我无法提供一个孤立的案例来重现此代码)。

所以我克隆了我的源代码树，我编译的两个可执行文件之间的唯一区别是克隆包含一些额外的代码，这些代码甚至没有在此测试中执行。这让我怀疑这一定是内存问题，因为唯一的区别应该是代码在内存中的位置......无论如何，当我运行这两个可执行文件时，它们产生的区别如下:

diff new.out old.out 
655,656c655,656
<  6  -0x1.7c2a5a75fc046p-10 :                  0x0p+0                  0x0p+0                  0x0p+0   -0x1.75eee7aa9b8ddp-7 :    0x1.304ec13281eccp-4    0x1.304ec13281eccp-4    0x1.304ec13281eccp-4    0x1.1eaea08b55205p-4
<  7   -0x1.a18f0b3a3eb8p-10 :                  0x0p+0                  0x0p+0   -0x1.75eee7aa9b8ddp-7   -0x1.a4acc49fef001p-6 :    0x1.304ec13281eccp-4    0x1.304ec13281eccp-4    0x1.1eaea08b55205p-4    0x1.9f6a9bc4559cdp-5
---
>  6  -0x1.7c2a5a75fc006p-10 :                  0x0p+0                  0x0p+0                  0x0p+0   -0x1.75eee7aa9b8ddp-7 :    0x1.304ec13281eccp-4    0x1.304ec13281eccp-4    0x1.304ec13281eccp-4    0x1.1eaea08b55205p-4
>  7  -0x1.a18f0b3a3ec5cp-10 :                  0x0p+0                  0x0p+0   -0x1.75eee7aa9b8ddp-7   -0x1.a4acc49fef001p-6 :    0x1.304ec13281eccp-4    0x1.304ec13281eccp-4    0x1.1eaea08b55205p-4    0x1.9f6a9bc4559cdp-5
<more output truncated>

您可以看到 c[3] 中的值略有不同，而 rhs 值没有任何不同。所以一些相同的输入如何导致不同的输出。我尝试简化 rhs 表达式，但我所做的任何更改都消除了差异。如果我打印 &c[3]，那么差异就消失了。如果我在我可以访问的两台不同的机器(linux、osx)上运行，则没有区别。这是我已经尝试过的:

valgrind(报告了 python 中的许多问题，但我的代码中没有任何问题，也没有看起来很严重的问题)
-D_GLIBCXX_DEBUG -D_GLIBCXX_DEBUG_ASSERT -D_GLIBCXX_DEBUG_PEDASSERT -D_GLIBCXX_DEBUG_VERIFY(但没有断言)
-fno-strict-aliasing(但我确实从 boost 代码中得到别名编译警告)

我尝试在有问题的机器上从 gcc 4.1.2 切换到 gcc 4.5.2，这个特定的、孤立的差异消失了(但回归仍然失败，所以让我们假设这是一个不同的问题)。

我能做些什么来进一步隔离问题吗？以备日后引用，有什么方法可以更快地分析或理解此类问题？例如，鉴于我对 lhs 发生变化而 rhs 没有发生变化的描述，您会得出什么结论？

编辑: 问题完全是由于 -ffast-math 造成的。

最佳答案

您可以更改程序的 float 据类型。如果使用float，可以切换成double；如果 c,f,df 是 double，您可以切换到 long double(intel 上 80 位；sparc 上 128 位)。对于 4.5.2，您甚至可以尝试使用 _float128(128 位)软件模拟类型。

对于更长的浮点类型，舍入误差会更小。

为什么添加一些代码(甚至未执行)会改变结果？如果代码大小发生变化，gcc 可能会以不同的方式编译程序。 GCC 内部有很多启发式算法，有些启发式算法是基于函数大小的。所以 gcc 可能会以不同的方式编译你的函数。

此外，尝试使用标志 -mfpmath=sse -msse2 编译您的项目，因为使用 x87(旧 gcc 的默认 fpmath)是 http://gcc.gnu.org/wiki/x87note

by default x87 arithmetic is not true 64/32 bit IEEE

PS:当您对稳定的数字结果感兴趣时，您不应该使用类似-ffast-math 的选项:http://gcc.gnu.org/onlinedocs/gcc-4.1.1/gcc/Optimize-Options.html

-ffast-math Sets -fno-math-errno, -funsafe-math-optimizations, -fno-trapping-math, -ffinite-math-only, -fno-rounding-math, -fno-signaling-nans and fcx-limited-range.

This option causes the preprocessor macro FAST_MATH to be defined.

This option should never be turned on by any -O option since it can result in incorrect output for programs which depend on an exact implementation of IEEE or ISO rules/specifications for math functions.

这部分快速数学可能会改变结果

-funsafe-math-optimizations Allow optimizations for floating-point arithmetic that (a) assume that arguments and results are valid and (b) may violate IEEE or ANSI standards. When used at link-time, it may include libraries or startup files that change the default FPU control word or other similar optimizations.

这部分将向用户隐藏陷阱和类似 NaN 的错误(有时用户想要准确地获取所有陷阱来调试他的代码)

-fno-trapping-math Compile code assuming that floating-point operations cannot generate user-visible traps. These traps include division by zero, overflow, underflow, inexact result and invalid operation. This option implies -fno-signaling-nans. Setting this option may allow faster code if one relies on “non-stop” IEEE arithmetic, for example.

快速数学的这一部分说，编译器可以在任何地方采用默认的舍入模式(对于某些程序来说可能是错误的):

-fno-rounding-math Enable transformations and optimizations that assume default floating point rounding behavior. This is round-to-zero for all floating point to integer conversions, and round-to-nearest for all other arithmetic truncations. ... This option enables constant folding of floating point expressions at compile-time (which may be affected by rounding mode) and arithmetic transformations that are unsafe in the presence of sign-dependent rounding modes.

关于c++ - 我试过 : valgrind, _GLIBCXX_DEBUG，-fno-strict-aliasing；我该如何调试这个错误？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6770236/

fno-strict-aliasing GLIBCXX_DEBUG code 0x blockquote c++debugging gcc regression-testing compiler-flags

有关c++ - 我试过 : valgrind, _GLIBCXX_DEBUG，-fno-strict-aliasing；我该如何调试这个错误？的更多相关文章

ruby-on-rails - Rails 常用字符串(用于通知和错误信息等) - 2
大约一年前，我决定确保每个包含非唯一文本的Flash通知都将从模块中的方法中获取文本。我这样做的最初原因是为了避免一遍又一遍地输入相同的字符串。如果我想更改措辞，我可以在一个地方轻松完成，而且一遍又一遍地重复同一件事而出现拼写错误的可能性也会降低。我最终得到的是这样的:moduleMessagesdefformat_error_messages(errors)errors.map{|attribute,message|"Error:#{attribute.to_s.titleize}#{message}."}enddeferror_message_could_not_find(obje
ruby-on-rails - 如何优雅地重启 thin + nginx？ - 2
我的瘦服务器配置了nginx，我的ROR应用程序正在它们上运行。在我发布代码更新时运行thinrestart会给我的应用程序带来一些停机时间。我试图弄清楚如何优雅地重启正在运行的Thin实例，但找不到好的解决方案。有没有人能做到这一点？最佳答案 #Restartjustthethinserverdescribedbythatconfigsudothin-C/etc/thin/mysite.ymlrestartNginx将继续运行并代理请求。如果您将Nginx设置为使用多个上游服务器，例如server{listen80;server
ruby-on-rails - 迷你测试错误 : "NameError: uninitialized constant" - 2
我遵循MichaelHartl的“RubyonRails教程:学习Web开发”，并创建了检查用户名和电子邮件长度有效性的测试(名称最多50个字符，电子邮件最多255个字符)。test/helpers/application_helper_test.rb的内容是:require'test_helper'classApplicationHelperTest在运行bundleexecraketest时，所有测试都通过了，但我看到以下消息在最后被标记为错误:ERROR["test_full_title_helper",ApplicationHelperTest,1.820016791]test
ruby-on-rails - 如何在 Rails View 上显示错误消息？ - 2
我是rails的新手，想在form字段上应用验证。myviewsnew.html.erb.....模拟.rbclassSimulation{:in=>1..25,:message=>'Therowmustbebetween1and25'}end模拟Controller.rbclassSimulationsController我想检查模型类中row字段的整数范围，如果不在范围内则返回错误信息。我可以检查上面代码的范围，但无法返回错误消息提前致谢最佳答案关键是您使用的是模型表单，一种显示ActiveRecord模型实例属性的表单。c
使用 ACL 调用 upload_file 时出现 Ruby S3 "Access Denied"错误 - 2
我正在尝试编写一个将文件上传到AWS并公开该文件的Ruby脚本。我做了以下事情:s3=Aws::S3::Resource.new(credentials:Aws::Credentials.new(KEY,SECRET),region:'us-west-2')obj=s3.bucket('stg-db').object('key')obj.upload_file(filename)这似乎工作正常，除了该文件不是公开可用的，而且我无法获得它的公共(public)URL。但是当我登录到S3时，我可以正常查看我的文件。为了使其公开可用，我将最后一行更改为obj.upload_file(file
ruby-on-rails - 错误 : Error installing pg: ERROR: Failed to build gem native extension - 2
我克隆了一个rails仓库，我现在正尝试捆绑安装背景:OSXElCapitanruby2.2.3p173(2015-08-18修订版51636)[x86_64-darwin15]rails-v在您的Gemfile中列出的或native可用的任何gem源中找不到gem'pg(>=0)ruby'。运行bundleinstall以安装缺少的gem。bundleinstallFetchinggemmetadatafromhttps://rubygems.org/............Fetchingversionmetadatafromhttps://rubygems.org/...Fe
ruby - ＃之间？ Cooper 的 *Beginning Ruby* 中的错误或异常 - 2
在Cooper的书BeginningRuby中，第166页有一个我无法重现的示例。classSongincludeComparableattr_accessor:lengthdef(other)@lengthother.lengthenddefinitialize(song_name,length)@song_name=song_name@length=lengthendenda=Song.new('Rockaroundtheclock',143)b=Song.new('BohemianRhapsody',544)c=Song.new('MinuteWaltz',60)a.betwee
ruby-on-rails - 每次我尝试部署时，我都会得到 - (gcloud.preview.app.deploy) 错误响应 : [4] DEADLINE_EXCEEDED - 2
我是Google云的新手，我正在尝试对其进行首次部署。我的第一个部署是RubyonRails项目。我基本上是在关注thisguideinthegoogleclouddocumentation.唯一的区别是我使用的是我自己的项目，而不是他们提供的“helloworld”项目。这是我的app.yaml文件runtime:customvm:trueentrypoint:bundleexecrackup-p8080-Eproductionconfig.ruresources:cpu:0.5memory_gb:1.3disk_size_gb:10当我转到我的项目目录并运行gcloudprevie
ruby-on-rails - Rails 5 Active Record 记录无效错误 - 2
我有两个Rails模型，即Invoice和Invoice_details。一个Invoice_details属于Invoice，一个Invoice有多个Invoice_details。我无法使用accepts_nested_attributes_forinInvoice通过Invoice模型保存Invoice_details。我收到以下错误:(0.2ms)BEGIN(0.2ms)ROLLBACKCompleted422UnprocessableEntityin25ms(ActiveRecord:4.0ms)ActiveRecord::RecordInvalid(Validationfa
arrays - 这是 Ruby 中 Array.fill 方法的错误吗？ - 2
这个问题在这里已经有了答案:Arraysmisbehaving(1个回答)关闭6年前。是否应该这样，即我误解了，还是错误？a=Array.new(3,Array.new(3))a[1].fill('g')=>[["g","g","g"],["g","g","g"],["g","g","g"]]它不应该导致:=>[[nil,nil,nil],["g","g","g"],[nil,nil,nil]]

c++ - 我试过 : valgrind, _GLIBCXX_DEBUG，-fno-strict-aliasing；我该如何调试这个错误？

有关c++ - 我试过 : valgrind, _GLIBCXX_DEBUG，-fno-strict-aliasing；我该如何调试这个错误？的更多相关文章

随机推荐