C++浮点精度

c++ - float、double 和 long double 是否有保证的最小精度？

从我之前的问题“Isfloatingpointprecisionmutableorinvariant?”我收到了一个response其中说，CprovidesDBL_DIG,DBL_DECIMAL_DIG,andtheirfloatandlongdoublecounterparts.DBL_DIGindicatestheminimumrelativedecimalprecision.DBL_DECIMAL_DIGcanbethoughtofasthemaximumrelativedecimalprecision.我查看了这些宏。它们位于标题中。.来自cplusplusreference

c++ - C++ 中是否允许浮点表达式收缩？

浮点表达式有时可以在处理硬件上收缩，例如使用融合乘加作为单个硬件操作。显然，使用这些this不仅仅是一个实现细节，还受编程语言规范的约束。具体来说，C89标准不允许这样的缩略，而在C99中，只要定义了一些宏，它们是允许的。详见thisSOanswer.但是C++呢？是否不允许浮点收缩？某些标准允许吗？普遍允许？最佳答案总结收缩是允许的，但为用户提供了一个工具来禁用它们。标准中不明确的语言笼罩了禁用它们是否会提供预期结果的问题。我在官方C++2003标准和2017n4659草案中对此进行了调查。除非另有说明，否则C++引文均来自2

amp 43 code C++section c++floating-point fma

c++ - 提高远离相机的深度缓冲精度

我正在从事一个项目，该项目是通过模拟制作电影。模拟是从另一个定义投影矩阵的程序传递过来的。我遇到的问题是另一个程序有一种“假的”正交View，我的意思是它的投影矩阵如下:PerspectiveMatrix=glm::perspective(3.5,1,1.0f,50.0f);它使用LookAt函数:ViewMatrix=glm::lookAt((2000,-3000,2000),//eye(0,0,0),//center(0,0,1)//up);所以我所说的“假”正交View的意思是他们将相机放置得足够远(并且小角度缩放场景)以至于“View线”(缺少更好的术语)几乎平行在真正的正交投

amp 43 section maximizing-depth-buffer-range-and depth c++opengl

c++ - Jsoncpp 错误地写入浮点值

我正在使用jsoncpp读取JSON文件。当我写回文件时，我的浮点值略有偏差。为了进行测试，我决定将文件解析为Json::Value，然后将该值写回到文件中。我希望它看起来一样，但浮点值不同。例子:"Parameters":{"MinXValue":0.1,"MaxXValue":0.15,"MinYValue":0.25,"MaxYValue":1.1,"MinObjectSizeValue":1}写成:"Parameters":{"MinXValue":0.10000000000000001,"MaxXValue":0.14999999999999999,"MinYValue":0

amp Jsoncpp 34 code section c++json floating-point

c++ - 浮点值加倍和除法

我有一个函数，我相信它会将一个int转换为一个浮点值，并将其拆分为该值的符号指数和小数部分。使用IEEE754表示浮点值。unsignedtest(unsignedx){//splitthegivenbitsofsignexponentandfraction,combinetoreturnunsignedintsign=(x&0x80000000)>>31;unsignedintexpo=(x&0x7F800000)>>23;unsignedintfrac=(x&0x007fffff);return(sign但是我不确定如何从这个浮点表示中计算出减半或加倍的值。unsigneddoub

加倍 amp unsigned section c++c floating-point bit

c++ - 在 C++ 中进行数学运算时，浮点错误如何传播？

假设我们声明了以下变量floata=1.2291;floatb=3.99;float变量的精度为6，这(如果我理解正确的话)意味着计算机实际存储的数字与您想要的实际数字之间的差异将小于10^-6这意味着a和b都有一些小于10^-6的误差所以在计算机内部a实际上可能是1.229100000012123而b可能是3.9900000191919现在假设您有以下代码floatc=0;for(inti=0;i我的问题是，c的最终结果是否也会有小于10^-6的精度误差？如果答案是否定的，我们如何才能真正知道这个精度误差，以及如果您应用任何类型的操作，按您希望的次数和以任何顺序到底会发生什么？

中进 amp code section blockquote c++c floating-point floating-accuracy floating-point-precision

c++ - 全局设置 stringstream 的精度

我在我的整个项目中使用了stringstream，它有超过30个文件。我最近克服了一个由stringstring引起的问题，在这个问题中我将double解析为stringstream并且丢失了精度。所以现在我想为所有文件设置精度。有什么办法可以将它设置在全局某处，这样我就不需要在每个文件的任何地方进行更改。有人建议我看看是否可以使用语言环境。请帮我解决这个问题，如果您有代码或任何代码链接，它会更有用。最佳答案可能最简单的方法是用您自己的继承自stringstream的类替换您在整个程序中对stringstream的使用:clas

stringstream amp section code c++

c++ - 浮点乘积扩展等价

在IEEE754float中，有可能a*(b-c)!=a*b-a*c//a,b,cdouble因此不能保证展开的产品与未展开的产品相等。但是这个呢:a*(b1+b2+...+bn)==a*b1+a*b2+...+a*bn//b1==b2==...==bn当所有b相等时，是否保证等价(在没有下溢/上溢的情况下)？如果b的相等性在编译时是否已知，是否有区别？编辑:它不是-参见EricPostpischil和PascalCuoq。但也许持有较弱的断言？:(1.0/n)*(b1+b2+...+bn)我只是想知道您是否可以保证数据集的平均值不超过某个值每个数据值也不超过，无论您如何计算平均值(先

amp 43 code section 1.0 c++floating-point

记录--前端金额运算精度丢失问题及解决方案

这里给大家分享我在网上总结出来的一些知识，希望对大家有所帮助前言前端开发中难免会遇到价格和金额计算的需求，这类需求所要计算的数值大多数情况下是要求精确到小数点后的多少位。但是因为JS语言本身的缺陷，在处理浮点数的运算时会出现一些奇怪的问题，导致计算不精确。本文尝试从现象入手，分析造成这一问题原因，并总结和整合一些通用的解决方案，以供大家参考。现象回顾下面的是JS进行数值运算过程中常见的问题，这个问题有个专业的名称叫精度丢失。在JavaScript中整数和浮点数都属于Number数据类型，所有的数字都是以64位浮点数形式存储，整数也是如此。所以我们在打印1.00这样的浮点数的结果是1而非1.00

前端运算 section 数字前端开发

c++ - 如何测试文件存储的浮点表示？

这个问题在这里已经有了答案:HowtocheckifC++compilerusesIEEE754floatingpointstandard(2个答案)关闭7年前。我已将科学数据转储到文件中。目前，我只是用与内存中相同的表示形式丢弃了它们。我已经记录了它们是IEEE754，但我希望在代码中声明这一点，这样如果它被移植到一个奇怪的架构并与我的文档分开(研究代码被传递)它会在编译时出错。目前我有static_assert(sizeof(double)==8),"message");有没有办法测试IEEE754？可以静态断言吗？

amp 43 section notice 时出 c++c++11 floating-point

25 26 272829 30 31