浮点

c++ - 定义浮点等价关系的符合标准的方法

我知道浮点运算和精度损失的常见问题，所以这不是关于为什么0.1+0.2!=0.3之类的常见问题。相反，我实际上想在C++中实现一个二进制谓词(以100%符合标准的方式)，它实际上实现了一个真正的数学equivalencerelationship(即自反、传递和对称)，这样如果两个double值在所有方面都表示完全相同的值，则它们属于同一个等价类，区分像0.0和-0.0这样的极端情况但将所有NaN值视为在同一个等价类中。(特别是，默认的==不是我想要的，因为在NaN的情况下is是非自反的，并且不区分0.0和否定的-0.0，我希望它们属于不同的等价类，因为它们实际上是不同的值并导致不同的运

amp 43 code the standard c++floating-point

c++ - 精确的浮点<->字符串转换

我正在寻找一个库函数来在C++中将float转换为字符串，然后再转换回来。我想要的属性是str2num(num2str(x))==x和num2str(str2num(x))==x(尽可能)。一般属性是num2str应该表示最简单的有理数，当四舍五入到最接近的可表示float时，它会返回原始数字。到目前为止，我已经尝试过boost::lexical_cast:doubled=1.34;string_ts=boost::lexical_cast(d);printf("%s\n",s.c_str());//outputs1.3400000000000001我已经尝试过std::ostring

amp 43 section C++python c++

c++ - 我应该使用哪种浮点图像格式？

过去我将RGB图像(从物理模拟生成)保存为8位/channelPPM或PNG或JPEG。现在我想保留模拟输出的动态范围，这意味着保存浮点图像，然后将转换为8位/channel作为后处理步骤(因此我可以调整转换为8位无需再次运行冗长的模拟)。是否出现了“标准”浮点图像格式？良好的免费支持库/查看器/操作工具，最好在Debian中提供，将是一个奖励。最佳答案您是否查看过RadianceRGBE(.hdr)和OpenEXR(.exr)。RGBE有一些sourcecodehere.NVIDIA和ATI都在其显卡中支持EXR数据。有来自O

amp 43 noreferrer noopener nofollow c++graphics rendering file-format hdrimages

c++ - 使用 SSE 加速浮点 5x5 矩阵 * vector 乘法

我需要每秒运行240000次矩阵vector乘法。矩阵是5x5并且始终相同，而vector在每次迭代时都会发生变化。数据类型为float。我正在考虑使用一些SSE(或类似)指令。我担心算术运算的数量与所涉及的内存运算的数量相比太少了。您认为我可以得到一些切实的(例如>20%)改进吗？我需要英特尔编译器吗？你能指出一些引用吗？最佳答案 Eigen用于vector、矩阵等的C++模板库...两者都有针对固定大小的小矩阵(以及动态大小的矩阵)的优化代码使用SSE优化的优化代码所以你应该试一试。

amp vector section li c++vectorization matrix-multiplication sse simd

c++ - 浮点加法提升为双倍？

今天早上我有一个小小的WTF时刻。WTF可以总结为:floatx=0.2f;floaty=0.1f;floatz=x+y;assert(z==x+y);//Thisassertistriggered!(Atleastwithvisualstudio2008)原因似乎是表达式x+y被提升为double并与z中的截断版本进行比较。(如果我将z更改为double则不会触发断言)。我可以看到，出于精度原因，在将结果转换为单精度之前以double执行所有浮点运算是有意义的。我在标准中找到了以下段落(我想我已经知道了，但不是在这种情况下):4.6.1."float类型的右值可以转换为double类

amp 43 code section double c++floating-point

c++ - 浮点优化 - 指南

我们需要通过在C/C++中实现特定算法来解决的大多数科学计算问题都需要远低于double的精度。例如，1e-6、1e-7精度涵盖了ODE求解器或数值积分的99%情况。即使在我们确实需要更高精度的极少数情况下，通常数值方法本身在我们梦想达到接近double的精度之前都会失败。示例:由于舍入误差，即使在求解标准的nostiff常微分方程时，我们也不能期望简单的Runge-Kutta方法具有1e-16的精度。在这种情况下，double要求类似于要求对错误答案有更好的近似值。然后，在大多数情况下，激进的浮点优化似乎是双赢的局面，因为它可以使您的代码更快(快得多!)，并且不会影响特定问题的目标准

amp 指南 code 的 section c++c optimization scientific-computing gsl

c++ - 浮点，相等比较是否足以防止被零除？

//valuewillalwaysbeintherangeof[0.0-maximum]floatobtainRatio(floatvalue,floatmaximum){if(maximum!=0.f){returnvalue/maximum;}else{return0.f;}}maximum的范围可以是任何值，包括负数。value的范围也可以是任何值，但仅当输入在[0.0-maximum]的范围内时，该函数才需要“有意义”。输出应始终在[0.0-1.0]范围内我有两个问题想问:这种相等比较是否足以确保函数永远不会被零除？如果最大值是退化值(极小或极大)，函数是否有可能返回[0.0-

等比 amp code strong float c++c floating-point

c++ - 不正确的浮点行为

当我在支持软件float仿真(禁用硬件浮点)的32位powerpc内核中运行以下C++程序时，我得到一个不正确的条件评估。有人能告诉我这里的潜在问题是什么吗？#includeintmain(){intnewmax=1;if((newmax+0.0)>256){printf("\nShouldn'tbehere\n");}else{printf("\nShouldbehere\n");}}编译:powerpc-linux-g++-msoft-float-cfloating.cxxpowerpc-linux-g++-ofloatingfloating.o目标系统中的输出:[linux:/]

不正 amp section floating code c++floating-point embedded-linux ieee-754 powerpc

c++ - 将浮点 vector 转换为 16 位 int 而不饱和

我想将浮点值转换为不饱和的16位无符号整数(改为环绕/溢出)。#include#includevoidsatur_wrap(){constfloatbigVal=99000.f;const__m128bigValVec=_mm_set1_ps(bigVal);const__m64outVec64=_mm_cvtps_pi16(bigValVec);#if0const__m128ioutVec=_mm_movpi64_epi64(outVec64);#else#if1const__m128ioutVec=_mm_packs_epi32(_mm_cvttps_epi32(bigValVec

不饱和 amp code outVals lt c++c performance sse

c++ - 为什么 "0f"在 C++ 中不被视为浮点文字？

为什么0f在C++中不被视为浮点字面量？#includeusingnamespacestd;intmain(){cout编译上面给了我C2509(syntaxerror:'badsuffixonnumber')使用VS2008。最佳答案如果此设计决策有明确说明的原因，则应在C99“基本原理”文档中(C++从C中逐字复制所有这些内容，而没有重新考虑)。但是没有。这就是关于“f”后缀的所有内容:§6.4.4.2FloatingconstantsConsistentwithexistingpractice,afloating-poin

amp 43 strong code section c++syntax floating-point syntax-error notation

53 54 555657 58 59