SSE

c++ - SSE 类型的 pow

我使用SSE类型进行了一些显式矢量化计算，例如__m128(在xmmintrin.h等中定义)，但现在我需要提高vector的所有元素一些(相同的)力量，即理想情况下我想要类似__m128_mm_pow_ps(__m128,float)的东西，不幸的是它不存在。解决这个问题的最佳方法是什么？我可以存储vector，在每个元素上调用std::pow，然后重新加载它。这是我能做的最好的吗？当自动矢量化代码时，编译器如何实现对std::pow的调用，否则可以很好地矢量化？是否有任何库提供有用的东西？(请注意thisquestion不是重复项，因此肯定没有有用的答案。)

amp 43 code section 矢量化 c++c sse pow

c++ - 对于具有所有相同组件的 SSE vector ，是动态生成还是预先计算？

当我需要执行一个vector操作，其操作数只是广播到每个组件的float时，我应该预先计算__m256还是__m128，然后加载它当我需要它时，或者每次我需要vector时使用_mm_set1_ps将float广播到寄存器？我一直在预先计算非常重要且使用频繁的vector，并即时生成不太重要的vector。但是我真的通过预计算获得了任何速度吗？值得这么麻烦吗？_mm_set1_ps是用一条指令实现的吗？这可能会回答我的问题。最佳答案我认为通常最好从代码(例如循环)中分离出SSEvector，并在需要时使用它，假设您注意不要不小心

同组预先 section code vector c++sse simd avx

c++ - SIMD : Why is the SSE RGB to YUV color conversion about the same speed as the c++ implementation?

我刚刚尝试优化RGB到YUV420转换器。使用查找表可以提高速度，就像使用定点算法一样。然而，我期待使用SSE指令获得真正的yield。我的第一次尝试导致代码变慢，并且在链接所有操作之后，它的速度与原始代码大致相同。我的实现是否有问题，或者SSE说明是否不适合手头的任务？部分原始代码如下:#defineRRGB24YUVCI2_000.299#defineRRGB24YUVCI2_010.587#defineRRGB24YUVCI2_020.114#defineRRGB24YUVCI2_10-0.147#defineRRGB24YUVCI2_11-0.289#defineRRGB24Y

amp the YUVCI2 YUVCI RRGB c++optimization rgb yuv sse2

c++ - 如何使用 _mm_extract_ps SSE GCC instrinc 函数将十六进制 float 转换为 C/C++ 中的 float

我正在为二维卷积编写SSE代码，但SSE文档非常稀少。我正在使用_mm_dp_ps计算点积并使用_mm_extract_ps获得点积结果，但是_mm_extract_ps返回一个十六进制float，我不知道如何将这个十六进制float转换为常规float。我可以使用__builtin_ia32_vec_ext_v4sf返回一个float但我想保持与其他编译器的兼容性。_mm_extract_ps(__m128__X,constint__N){union{inti;floatf;}__tmp;__tmp.f=__builtin_ia32_vec_ext_v4sf((__v4sf)__X,

amp float code section mm_extract_ps c++gcc floating-point hex sse

c++ - 通过 SSE4 包装器比较字符串

我需要在支持SSE4的机器上快速比较两个字符串。不写汇编插入怎么办？像longlongbitmask=strcmp(char*a,char*b)这样的包装器将是完美的。最佳答案您应该使用英特尔SSE内部函数，而不是使用内联汇编。对于字符串比较，您需要SSE4.2内在函数:文档在这里:http://software.intel.com/sites/products/documentation/doclib/stdxe/2013/composerxe/compiler/cpp-mac/GUID-6E9CFDF2-5DF6-42A4-

amp 包装 section 英特 documentation c++sse sse4

c++ - 用 sse 累加整数 vector

我试图更改此代码以处理std::vector.floataccumulate(conststd::vector&v){//copythelengthofvandapointertothedataontothelocalstackconstsize_tN=v.size();constfloat*p=(N>0)?&v.front():NULL;__m128mmSum=_mm_setzero_ps();size_ti=0;//unrolledloopthataddsup4elementsatatimefor(;i引用:http://fastcpp.blogspot.com.au/2011/0

累加 amp mmSum code vector c++x86 sse simd

c++ - 32 位应用程序中的 64 位功能？

我有一个32位应用程序，我计划在64位Windows7上运行。由于对第三方功能的依赖，现阶段我无法将整个应用程序转换为64位。但是，我想在我的SSE优化中访问xmm9-xmm15寄存器，并在执行我的应用程序时使用64位cpus通常提供的附加寄存器。这是否可以通过一些编译器标志来实现？最佳答案在我看来，最好的方法是将您的程序分成多个可执行文件。编译为64位的EXE可以使用您需要的32位第三方DLL与另一个32位EXE通信。您将在通信中有一些开销，并且必须实现依赖进程的启动/停止，但您将拥有清晰的程序架构。如果您开发nativeC+

amp 43 section strong 寄存 c++visual-studio-2010 64-bit x86-64 sse

c++ - 如何将两组 4 条短裤加载到 XMM 寄存器中？

我刚刚开始使用VisualC++2012使用SSE内部函数，我需要一些指导(没有双关语意)。我有两个数组，每个数组包含4个signedshort(因此每个数组都是64位的，总共128个)。我想将一个加载到XMM寄存器的高位，另一个加载到低位。我可以使用SSE内在函数有效地完成这项工作吗？如果是，怎么办？最佳答案 SSE2:shortA[]={0,1,2,3};shortB[]={4,5,6,7};__m128ia,b,v;a=_mm_loadl_epi64((const__m128i*)A);b=_mm_loadl_epi64((

寄存短裤 section code strong c++x86 sse simd intrinsics

c++ - 使用 SSE/AVX 获取存储在 __m256d 中的值的总和

有没有办法获取存储在__m256d变量中的值的总和？我有这个代码。acc=_mm256_add_pd(acc,_mm256_mul_pd(row,vec));//accinthispointcontains{2.0,8.0,18.0,32.0}acc=_mm256_hadd_pd(acc,acc);result[i]=((double*)&acc)[0]+((double*)&acc)[2];此代码有效，但我想用SSE/AVX指令替换它。最佳答案看来您正在对输出数组的每个元素进行水平求和。(也许作为matmul的一部分？)这通常

amp 43 code 27 256 c++optimization sse avx avx2

c++ - SSE:将 __m128 转换为 float

我有以下一段C代码:__m128pSrc1=_mm_set1_ps(4.0f);__m128pDest;inti;for(i=0;ifor循环结束之前的一切都有效。我现在要做的是将__m128类型转换回float。因为它存储了4个float，所以我想我可以很容易地将它转换回float*。我究竟做错了什么？(这是一个测试代码，所以不要怀疑)。我基本上尝试了所有我能想到的可能的转换。感谢您的帮助。最佳答案您可以使用_mm_store_ps将__m128vector存储到float组中。alignas(16)floatresult[4

amp float code section c++c sse

10 11 121314 15 16