memset_sse

C++ SSE3 指令集未启用

我正在尝试使用来自的HMMlib库在C++中处理一些隐藏的马尔可夫代码http://www.cs.au.dk/~asand/?page_id=152我使用的是ubuntu12.04，带有gcc/g++4.6我的编译步骤说明是:g++-I/usr/local/boost_1_52_0-I../MAIN.cpp这会产生以下错误:Infileincludedfrom../HMMlib/allocator_traits.hpp:25:0,from../HMMlib/hmm_table.hpp:25,fromMAIN.cpp:1:/usr/lib/gcc/i686-linux-gnu/4.6/i

amp 43 HMMlib traits error c++compiler-errors sse3

c++ - 从 SSE 切换到 AVX 会受到惩罚吗？

我知道在没有先将所有ymm寄存器的上半部分清零的情况下从AVX指令切换到SSE指令的现有惩罚，但在我的机器(i7-3939K3.2GHz)上的特殊情况下，似乎即使我确实在AVX代码部分前后明确使用_mm256_zeroupper，也会对相反方向(SSE到AVX)造成很大的惩罚。我已经编写了在32位float和32位定点整数之间转换的函数，在2个32768个元素宽的缓冲区上。我将一个SSE2内部版本直接移植到AVX以在SSE的4个元素上同时处理8个元素，期望看到显着的性能提升，但不幸的是，相反的情况发生了。所以，我有两个功能:voidConvertPcm32FloatToPcm32Fix

amp 43 256 const mm c++sse avx sse2

c++ - SSE 内在函数 : masking a float and using bitwise and?

基本上这个问题与x86汇编器有关，您有一个数字，您希望使用and将其设置为零或数字本身。.如果你andnumber为负数你会得到number本身，但如果你and它与零你得到零。现在我在使用SSEinstrinsics时遇到的问题是float在二进制中与double不同(或者我弄错了)。无论如何，这是代码，我尝试使用各种float来掩盖第二个和第三个数字(分别为127.0f和99.0f)，但没有成功。#include#includevoidprint_4_bit_num(constchar*label,__m128var){float*val=(float*)&var;printf("%

内在 amp code section 128 c++sse intrinsics

c++ - memset() 在构造函数中初始化对象？

我找到了一段使用memset()初始化对象的C++代码:structMessage{Message(){memset(this,0,sizeof(Message));}unsignedinta,b,c;};既然是POD结构，这段代码应该没问题。使用memset而不是构造函数有什么优势，例如:Message():a(0),b(0),c(0){} 最佳答案像这样使用memset()没有任何优势。抛开所有明显的缺点和future的痛苦，有一个缺点使其效率低于Message():a(0),b(0),c(0){}这是因为POD通常存储在数组

amp memset code section Message c++constructor initialization

c++ - SSE版本的差平方和算法的累积计算误差

我正在尝试优化以下代码(两个数组的平方差之和):inlinefloatSquare(floatvalue){returnvalue*value;}floatSquaredDifferenceSum(constfloat*a,constfloat*b,size_tsize){floatsum=0;for(size_ti=0;i所以我使用CPU的SSE指令进行了优化:inlinevoidSquaredDifferenceSum(constfloat*a,constfloat*b,size_ti,__m128&sum){__m128_a=_mm_loadu_ps(a+i);__m128_b=

amp 43 float size sum c++sse simd

c++ - 没有 AVX2 的 32 位整数的 SSE 整数 2^n 次幂

我找不到用于计算2^n的SSE指令对于vector__m128i32位整数。是否有执行以下伪代码的指令或函数？__m128ipower_of_two(__m128ib){__m128r;for(inti=0;i_mm_sll_epi32指令只计算r[i]=a[i]. 最佳答案 AVX2之前没有单一指令，但即使只有SSE2，也有一个技巧可以滥用浮点格式来生成2的幂，方法是使用整数算法生成指数字段，然后将其从float转换为整数.可能有更快的选择。__m128ipower_of_two(__m128ib){__m128iexp=_mm_

amp 43 code section 128 c++x86 sse simd intrinsics

c++ - 检查运行时是否支持 SSE

这个问题在这里已经有了答案:HowtocheckifaCPUsupportstheSSE3instructionset?(7个答案)cpudispatcherforvisualstudioforAVXandSSE(3个答案)关闭7年前。我想检查运行时是否支持SSE4或AVX，以便我的程序可以利用处理器特定指令，而无需为每个处理器创建二进制文件。如果我可以在运行时确定它，我可以使用一个接口(interface)并在不同的指令集之间切换。

amp 43 section span notice c++c sse simd avx

c++ - 微小的 SSE addpd 循环比 AMD Phenom II 上的标量稍慢？

是的，我读了SIMDcoderunsslowerthanscalarcode.不，这不是真正的重复。我使用二维数学已有一段时间了，并且正在将我的代码库从C移植到C++。我在使用C时遇到了一些问题，这意味着我确实需要多态性，但那是另一回事了。不管怎样，我之前考虑过这个，但它提供了一个使用2Dvector类的绝好机会，包括常见数学运算的SSE实现。是的，我知道那里有图书馆，但我想自己尝试一下以了解发生了什么，而且我没有使用比+=更复杂的东西。.我的实现是通过,用一个union{__m128dss;struct{doublex;doubley;}}SSE似乎很慢，所以我查看了它生成的ASM输

微小 amp code section stackoverflow c++c gcc assembly sse

c++ - SSE 内联汇编和可能的 g++ 优化错误

让我们从代码开始。我有两种结构，一种用于vector，另一种用于矩阵。structAVector{explicitAVector(floatx=0.0f,floaty=0.0f,floatz=0.0f,floatw=0.0f):x(x),y(y),z(z),w(w){}AVector(constAVector&a):x(a.x),y(a.y),z(a.z),w(a.w){}AVector&operator=(constAVector&a){x=a.x;y=a.y;z=a.z;w=a.w;return*this;}floatx,y,z,w;};structAMatrix{//Row-ma

amp 内联 row AVector 5.2 c++matrix vector sse

c++ - 在 Visual Studio 中检测 SSE/SSE2 指令集的可用性

如何在代码中检查VisualStudio编译器是否启用了SSE/SSE2？我已经尝试过#ifdef__SSE__但它没有用。最佳答案关于_M_IX86_FP的一些附加信息。_M_IX86_FP仅为32位代码定义。64位x86代码至少有SSE2。您可以使用_M_AMD64或_M_X64来确定代码是否为64位。#ifdef__AVX2__//AVX2#elifdefined(__AVX__)//AVX#elif(defined(_M_AMD64)||defined(_M_X64))//SSE2x64#elif_M_IX86_FP==

amp SSE section code c++visual-studio x86 sse2

2 3 456 7 8