floating-point-conversion

c++ - 将 double 置换为 float 时的时间性能

我有一些由MATLAB提供给C++的大数组(因此我需要按原样使用它们)需要强制转换和置换(行市长、列市长问题)。imgaux数组是double类型，大小为size_proj[0]*size_proj[1]*size_proj[2]，需要转换为float，改变一些值的位置。一个最小的例子如下:#include#includeintmain(void){intsize_proj[3];size_proj[0]=512;size_proj[1]=512;size_proj[2]=360;size_tnum_byte_double=size_proj[0]*size_proj[1]*size_

c++ - C 和 C++ 编译器如何实现 float 的相等性判定？

例如，floata=1.0;floatb=1.2;puts(a==b?"equal":"notequal");编译器是按位还是其他方式处理？(我知道用“==”来判断float是否相等不是一个好的选择，我只是想知道编译器是如何处理这种情况的。) 最佳答案一般的、完整的答案是float是根据IEEE754规范进行比较的。具体回答你的问题，大多数时候两个float是按位比较的，有一些异常(exception)情况:正零和负零被认为是相等的NaN被认为不等于一切，甚至不等于NaN本身次正规数可能在某些操作模式下比较等于零和其他次正规数(例

amp 43 section float li c++c floating-point-precision

c++ - SSE 和 iostream : wrong output for floating point types

测试.cpp:#includeusingnamespacestd;intmain(){doublepi=3.14;cout当使用g++-mno-ssetest.cpp在cygwin64位上编译时，输出为:pi:0但是，如果使用g++test.cpp编译，它可以正常工作。.我有GCC版本5.4.0。最佳答案是的，我复制了这个。嗯，主要是。我实际上没有得到0的输出，而是一些其他的垃圾输出。所以我可以重现无效的行为，并且我已经查明了原因。您可以看到GCC5.4.0使用-m64-mno-sse标志hereonGoldbolt'sComp

amp iostream code 39 寄存 c++floating-point x86-64 sse libstdc++

c++ - printf 如何从 float 中提取数字？

printf等函数如何从float中提取数字？我理解原则上如何做到这一点。给定一个数字x，您需要其中的前n位数字，将x缩放为10的幂，以便x介于pow(10,n)和pow(10,n-1)之间。然后将x转化为整数，取整数的位数。我试过了，效果很好。有点。我的答案与printf给出的前16位十进制数字的答案相同，但在后面的数字上往往有所不同。printf是怎么做到的？最佳答案经典实现是DavidGay的dtoa.确切的细节有些神秘(请参阅Whydoes"dtoa.c"containsomuchcode?)，但通常它的工作原理是使用比

amp printf code section 的 c++c floating-point

c# - C++/C# 与 float 和 double 的区别

我们正在将C++数学库转换为C#。该库混合使用float和double(有时在它们之间转换)，我们正在尝试做同样的事情，以便在C#中获得与在C++中完全相同的结果，但事实证明即使不是不可能，也是非常困难的.我认为问题出在以下一项或多项，但我不是专家:将float转换为double并将double转换为float会导致不可预测的结果，并且在C++和C#中的处理方式不同C++和C#处理浮点精度的方式不同，它们不能相互模仿在.NET的某个地方有一个设置可以让它像C++一样执行，但我找不到它(都是32位的)有人可以向我解释可能出现的问题，并且可以将我链接到Microsoft的一些权威文档，我可

c#amp C++section c++floating-point double

c++ - SSE3 内在函数 : How to find the maximum of a large array of floats

我有以下代码来查找最大值intlength=2000;float*data;//dataisallocatedandinitializedfloatmax=0.0;for(inti=0;imax){max=data;}}我尝试使用SSE3内在函数对其进行矢量化，但我对应该如何进行比较感到有些吃惊。intlength=2000;float*data;//dataisallocatedandinitializedfloatmax=0.0;//fortimebeingjustassumethatlengthisalwaysmod4for(inti=0;i谁能给出一些想法。

内在 amp code max section c++sse intrinsics

c++ - 将字节数组转换为 float

我有一个程序需要接收4个字节并将它们转换为IEEE-754float。字节被乱序传输，但我可以把它们按顺序放回去就好了。我的问题是将它们转换为float。代码的相关部分://Uniontostorebytesandfloatontopofeachothertypedefunion{unsignedcharb[4];floatf;}bfloat;//CreateinstanceoftheunionbfloatTemperature;//AddfloatdatausingtransmittedbytesMMI.Temperature.b[2]=0xD1;//MMIResponseMsg[7

amp float code Temperature c++c casting

c++ - 使用 stringstream float 的字符串

我在网上找到这段代码，作为将字符串转换为float/int/double的模板。它只是在这里，所以我有一些可以引用的问题....我想让用户输入一个数字作为字符串，将其转换为float，测试它是否成功，如果输入是“Q”则退出，或者如果输入不是“Q”则打印“无效输入”uit字符并返回以获取更多输入。转换失败测试的语法是什么？会是ss.fail()吗？//usingstringstreamconstructors.#include#includeusingnamespacestd;intmain(){intval;stringstreamss(stringstream::in|strings

stringstream amp section float c++

c++ - 将 float 序列化为 32 位整数的可移植方法

我一直在努力寻找一种可移植的方法来序列化C和C++中的32位浮点变量，以便发送到微Controller或从微Controller发送。我希望格式定义得足够好，以便序列化/反序列化也可以从其他语言完成，而不需要太多努力。相关问题是:Portabilityofbinaryserializationofdouble/floattypeinC++SerializedoubleandfloatwithCc++portableconversionoflongtodouble我知道在大多数情况下typecastunion/memcpy会工作得很好，因为float表示是相同的，但我更愿意有更多的控制和

化为 amp float buffer c++c floating-point embedded

c++ - 如何使 float 使用逗号而不是点？

我想制作一个使用本地设置的运算符这可能吗？最佳答案您可以在您的流中注入(inject)一个numpunct方面。我相信这样的事情应该适合你:templatestructcomma_separator:std::numpunct{typenamestd::numpunct::char_typedo_decimal_point()const{return',';}};templatestd::basic_ostream&comma_sep(std::basic_ostream&os){os.imbue(std::locale(std

amp float section std lt c++visual-c++

242 243 244245246 247 248