memset_sse

c++ - SSE版本的modf

我有以下使用SSE内在函数的modf的工作实现，但是当我需要结果时转换为__m128i并返回过程似乎很浪费作为__m128。__m128integer=_mm_cvtepi32_ps(_mm_cvttps_epi32(value));__m128fraction=_mm_sub_ps(value,integer);是否存在不进行类型转换或一些魔术数字破解的截断指令？最佳答案通过SSE4.1，您可以使用roundpsandroundpd说明://SinglePrecision__m128integer=_mm_round_ps(v

amp 43 code integer value c++visual-c++sse simd

c++ - C++ 中 SSE 的内存对齐，_aligned_malloc 等效？

我想知道如何将此C代码转换为C++以实现内存对齐。float*pResult=(float*)_aligned_malloc(length*sizeof(float),16);我看过here然后我试了这个float*pResult=(float*)__attribute__((aligned(16)));还有这个float*pResult=__attribute__((aligned(16)));但两者都给出了类似的错误。error:expectedprimary-expressionbefore'__attribute__'|error:expected','or';'before'

amp 等效 float aligned code c++g++malloc sse memory-alignment

c++ - 唯一指针的 Memset

我正在将C代码转换为C++。有矩阵指针:MATRIX*matrix=NULL;matrix=newMATRIX[256];if(matrix==NULL)returnFAIL;memset(matrix,0,256*sizeof(MATRIX));然后用不同的方法填充:fillUpMatrix(matrix);在fillUpMatrix()中:memcpy(&matrix[start],&someOtherMatrix[pos],sizeof(MATRIX));后来为指针调用了memset，因为它将用一组不同的值填充:memset(matrix,0,256*sizeof(MATRIX)

amp Memset code matrix c++smart-pointers

c++ - 加快一些 SSE2 Intrinsics 的颜色转换

我正在尝试执行从YCbCr到BGRA的图像颜色转换(不要问A位，好头疼)。无论如何，这需要尽可能快地执行，所以我使用编译器内部函数编写它以利用SSE2。这是我第一次涉足SIMD领域，我基本上是一个初学者，所以我确信我做的很多事情都是低效的。事实证明，我执行实际颜色转换的算术代码特别慢，Intel的VTune显示它是一个重大瓶颈。那么，有什么方法可以加快以下代码的速度吗？它以32位、一次4个像素完成。我最初尝试以8位、一次16个像素(如上循环)进行计算，但计算导致整数溢出和转换中断。整个过程，包括Inteljpeg解码，对于全高清的单场大约需要14毫秒。如果我能将它降低到至少12毫秒，最

Intrinsics amp 128 epi pSrc8u c++colors simd yuv sse2

c++ - 使用 SSE 计算矩阵乘积比使用直接算法慢得多

我想使用直接算法将两个矩阵相乘一次:templatevoidmultiplicate_straight(T**A,T**B,T**C,intsizeX){T**D=AllocateDynamicArray2D(sizeX,sizeX);transpose_matrix(B,D,sizeX);for(inti=0;i(D);}还有一次是通过使用SSE函数。为此，我创建了两个函数:templatevoidSSE_vectormult(T*A,T*B,intsize){__m128da;__m128db;__m128dc;#ifdeflinuxdoubleA2[2],B2[2],C[2]__

amp 43 sizeX code lt c++matrix sse

c++ - 设置 SSE 寄存器中的最后或前 n 位

我如何创建一个__m128i并设置了n个最高有效位(在整个vector中)？我需要它来屏蔽与计算相关的缓冲区部分。如果可能的话，解决方案应该没有分支，但这似乎很难实现我该怎么做？最佳答案我将此添加为第二个答案，并将第一个答案留给历史兴趣。看起来你可以用_mm_slli_epi64做一些更有效的事情:#include#include__m128ibit_mask(intn){__m128iv0=_mm_set_epi64x(-1,-(n>64));//ANDmask__m128iv1=_mm_set_epi64x(-(n>64),

寄存 amp 00 ff bit_mask c++x86 sse simd intrinsics

c++ - 什么是 __memset_sse2 以及它为什么执行这么多指令？

我有两个算法的C++实现，称它们为A和B.A之间的唯一区别和B是那个A使用std::unordered_maphashmap;但是B使用google::dense_hash_maphashmap;.我在A中找到了一个输入与B相比慢得多我不明白为什么。对于相同的输入，我运行sudoperfrecord-einstructions./Ainput.txt然后我得到这个结果:OverheadCommandSharedObjectSymbol65.90%Alibc-2.23.so[.]__memset_sse26.63%Alibc-2.23.so[.]_int_malloc3.44%Alibc

memset_sse amp code section memset c++performance

c++ - vector<int> 上的 memset

根据MarkRansomsanswer关于使用memset，我在vector上使用memset为所有元素赋值。memset(&match_begin[0],0xff,sizeof(match_begin[0])*match_begin.size());它确实比std::fill有了显着的性能提升它工作正常(g++4.3.2、64位linux)。这段代码是否安全，如std::vector实现是否始终保证数据的内存分配是连续的？是否有可能在STL库的future(或不同的)实现中，这可能会改变并在以后破坏我的代码？最佳答案 would

amp vector section blockquote memset c++stl

c++ - SSE Intrinsics 和循环展开

我正在尝试优化一些循环并且我已经成功了，但我想知道我是否只做了部分正确的事情。比如说我有这个循环:for(i=0;i将它展开3倍，产生这个:intunroll=(n/4)*4;for(i=0;i现在是SSE翻译等价物:__m128ai_v=_mm_loadu_ps(&a[i]);__m128two_v=_mm_set1_ps(2);__m128ai2_v=_mm_mul_ps(ai_v,two_v);_mm_storeu_ps(&b[i],ai2_v);或者是:__m128ai_v=_mm_loadu_ps(&a[i]);__m128two_v=_mm_set1_ps(2);__m12

Intrinsics amp code strong UNROLL c++optimization sse loop-unrolling

c++ - AVX/SSE 回合向下 float 并返回整数 vector ？

有没有办法使用AVX/SSE获取浮点vector、向下舍入并生成整数vector？所有的floor内部方法似乎都产生了一个浮点的最终vector，这很奇怪，因为四舍五入产生了一个整数! 最佳答案 SSE可以从FP转换为整数，您可以选择截断(向零)或当前舍入模式(通常是IEEE默认模式，最接近平局舍入为偶数。像nearbyint()，与round()不同，其中tiebreak是远离0。如果您需要x86上的舍入模式，youhavetoemulateit,perhapswithtruncateasabuildingblock。)相关说明为

回合 amp code result vector c++intel sse intrinsics avx

1 2 345 6 7