Double-precision_floating-point_f
全部标签 我正在编写一个创建ICC颜色格式的程序。这些格式指定了一种称为s15Fixed16Number的数据类型,它具有一个符号位、15个整数位和16个小数位。IEEE75432位float有一个符号位、8个指数位和23个小数位。我需要从文本框中获取输入,并将它们转换为s15Fixed16Number。一些搜索出现了this在谷歌书籍上,但这是在谈论将十进制数转换为s15Fixed16Number。我想我可以只使用链接中解释的方法,但我还没有进行任何测试来确定它的准确性。我想我也可以尝试转换从文本框中输入的字符,但我还没有考虑那么多。我正在使用Cocoa,但我认为这不重要;任何C函数都应该有效
同样的代码在VSc++和MinGW中运行得到不同的结果。结果是double类型。示例:在VSC++中得到“-6.397745731873350”,但在MinGW中得到“-6.397745731873378”。有垃圾不同。但我不知道为什么? 最佳答案 我敢猜测这是两种可能性之一。当WindowsNT是新的,并且它们支持移植到其他处理器(例如MIPS和DECAlpha)时,MS有一点问题:处理器都有64位浮点类型,但它们有时会生成结果略有不同。DECAlpha对64位double作为64位double进行了计算。x86上的默认模式有点不
假设在下面的代码中floatf1=...;doubled1=static_cast(f1);floatf2=static_cast(d1);ASSERT(f1==f2);变量f1被初始化为非NaN的值。那么断言是否保证符合C++标准? 最佳答案 这里有一些线索,但不是答案:4.6Aprvalueoftypefloatcanbeconvertedtoaprvalueoftypedouble.Thevalueisunchanged.Thisconversioniscalledfloatingpointpromotion....4.8Ap
从我之前的问题“Isfloatingpointprecisionmutableorinvariant?”我收到了一个response其中说,CprovidesDBL_DIG,DBL_DECIMAL_DIG,andtheirfloatandlongdoublecounterparts.DBL_DIGindicatestheminimumrelativedecimalprecision.DBL_DECIMAL_DIGcanbethoughtofasthemaximumrelativedecimalprecision.我查看了这些宏。它们位于标题中。.来自cplusplusreference
我有一个32位floatf我需要转换为32位无符号整数的数字(已知为正数)。它的大小可能太大而不适合。此外,下游计算需要一些净空。我可以计算最大可接受值m作为32位整数。如果f,我如何在受约束的32位机器(ARMM4F)上有效地确定C++11数学上。请注意,这两个值的类型不匹配。以下三种方法各有其问题:static_cast(f):我认为这会触发未定义的行为,如果f不适合32位整数f(m):如果m太大而无法准确转换,转换后的值可能大于m使得后续比较在某些边缘情况下会产生错误的结果static_cast(f)(m):在数学上是正确的,但需要强制转换为double并使用double,出于效
我读了this和this.精髓是,如果通过包含fenv.h并通过feenableexcept(FE_ALL_EXCEPT&~FE_INEXACT);启用所有浮点异常但FE_INEXACT生成nan,则可以抛出SIGFPE;因此,代码改变了形式intmain(){doubledirty=0.0;doublenanvalue=0.0/dirty;return0;}到#includeintmain(){feenableexcept(FE_ALL_EXCEPT&~FE_INEXACT);//EnableallfloatingpointexceptionsbutFE_INEXACTdoubled
在我的代码中的某处,我有预处理器定义#defineZOOM_FACTOR1我在另一个地方#ifdefZOOM_FACTOR#if(ZOOM_FACTOR==1)#defineFONT_SIZE8#else#defineFONT_SIZE12#endif#else#defineFONT_SIZE8#endif问题是当我将ZOOM_FACTOR值更改为float值时,例如1.5,出现编译错误C1017:无效的整数常量表达式。有谁知道我为什么会收到这个错误,有没有办法在预处理器指令中比较integer和floatingpointnumber? 最佳答案
我有代码在float(代表秒)和int64(代表纳秒)之间进行转换,从float中取6位小数int64_tnanos=f*1000000000LL;然而,存储在float中的许多十进制值无法在二进制float中准确表示,因此当我的float为14.2f时,我得到类似14199999488的结果。目前我通过计算小数点后的有效位数来解决这个问题constfloatlogOfSecs=std::log10(f);intprecommaPlaces=0;if(logOfSecs>0){precommaPlaces=std::ceil(logOfSecs);}intpostcommaPlaces
我正在使用第三方C++库在Julia中完成一些繁重的工作。在Julia方面,数据存储在Array{Float64,2}类型的对象中(这大致类似于double的二维数组)。我可以使用指向double的指针将它传递给C++。然而,在C++端,数据存储在名为vector3的结构中:typedefstruct_vector3{doublex,y,z;}vector3;我的快速而肮脏的方法是一个五步过程:在C++端动态分配结构数组将输入数据从double*复制到vector3*做繁重的工作将输出数据从vector3*复制到double*删除动态分配的数组复制大量数据是非常低效的。我可以使用一些神
我已经将一个相对简单的算法从C++转换为Java,该算法对double类型的数字执行大量计算,但是在两个平台上运行该算法但同一台机器产生的结果略有不同结果。该算法对许多double和整数进行乘法和求和。我在Java算法中将int转换为double;C算法不强制转换。例如,在一次运行中我得到了结果:(Java)64684970(C++)65296408(打印忽略小数位)当然,我的算法可能存在错误,但是在我开始花时间调试之前,是否可以通过C++和Java中不同的浮点处理来解释这种差异?如果是这样,我可以证明这是问题所在吗?更新-类型不同的地方是两个整数之间的乘法,然后将其添加到运行总dou