SSE

c++ - 使用 SSE 计算矩阵乘积比使用直接算法慢得多

我想使用直接算法将两个矩阵相乘一次:templatevoidmultiplicate_straight(T**A,T**B,T**C,intsizeX){T**D=AllocateDynamicArray2D(sizeX,sizeX);transpose_matrix(B,D,sizeX);for(inti=0;i(D);}还有一次是通过使用SSE函数。为此，我创建了两个函数:templatevoidSSE_vectormult(T*A,T*B,intsize){__m128da;__m128db;__m128dc;#ifdeflinuxdoubleA2[2],B2[2],C[2]__

amp 43 sizeX code lt c++matrix sse

c++ - 设置 SSE 寄存器中的最后或前 n 位

我如何创建一个__m128i并设置了n个最高有效位(在整个vector中)？我需要它来屏蔽与计算相关的缓冲区部分。如果可能的话，解决方案应该没有分支，但这似乎很难实现我该怎么做？最佳答案我将此添加为第二个答案，并将第一个答案留给历史兴趣。看起来你可以用_mm_slli_epi64做一些更有效的事情:#include#include__m128ibit_mask(intn){__m128iv0=_mm_set_epi64x(-1,-(n>64));//ANDmask__m128iv1=_mm_set_epi64x(-(n>64),

寄存 amp 00 ff bit_mask c++x86 sse simd intrinsics

c++ - 什么是 __memset_sse2 以及它为什么执行这么多指令？

我有两个算法的C++实现，称它们为A和B.A之间的唯一区别和B是那个A使用std::unordered_maphashmap;但是B使用google::dense_hash_maphashmap;.我在A中找到了一个输入与B相比慢得多我不明白为什么。对于相同的输入，我运行sudoperfrecord-einstructions./Ainput.txt然后我得到这个结果:OverheadCommandSharedObjectSymbol65.90%Alibc-2.23.so[.]__memset_sse26.63%Alibc-2.23.so[.]_int_malloc3.44%Alibc

memset_sse amp code section memset c++performance

c++ - 清除 __m128i 的高位字节

如何清除__m128i的16-i高位字节？我试过了；它有效，但我想知道是否有更好(更短、更快)的方法:inti=...//014)?-1:0,(i>13)?-1:0,(i>12)?-1:0,(i>11)?-1:0,(i>10)?-1:0,(i>9)?-1:0,(i>8)?-1:0,(i>7)?-1:0,(i>6)?-1:0,(i>5)?-1:0,(i>4)?-1:0,(i>3)?-1:0,(i>2)?-1:0,(i>1)?-1:0,-1);x=_mm_and_si128(x,mask); 最佳答案我尝试了几种不同的实现方法，并在早

高位 amp mask_shift mask shift c++c visual-studio-2012 sse simd

c++ - SSE Intrinsics 和循环展开

我正在尝试优化一些循环并且我已经成功了，但我想知道我是否只做了部分正确的事情。比如说我有这个循环:for(i=0;i将它展开3倍，产生这个:intunroll=(n/4)*4;for(i=0;i现在是SSE翻译等价物:__m128ai_v=_mm_loadu_ps(&a[i]);__m128two_v=_mm_set1_ps(2);__m128ai2_v=_mm_mul_ps(ai_v,two_v);_mm_storeu_ps(&b[i],ai2_v);或者是:__m128ai_v=_mm_loadu_ps(&a[i]);__m128two_v=_mm_set1_ps(2);__m12

Intrinsics amp code strong UNROLL c++optimization sse loop-unrolling

c++ - AVX/SSE 回合向下 float 并返回整数 vector ？

有没有办法使用AVX/SSE获取浮点vector、向下舍入并生成整数vector？所有的floor内部方法似乎都产生了一个浮点的最终vector，这很奇怪，因为四舍五入产生了一个整数! 最佳答案 SSE可以从FP转换为整数，您可以选择截断(向零)或当前舍入模式(通常是IEEE默认模式，最接近平局舍入为偶数。像nearbyint()，与round()不同，其中tiebreak是远离0。如果您需要x86上的舍入模式，youhavetoemulateit,perhapswithtruncateasabuildingblock。)相关说明为

回合 amp code result vector c++intel sse intrinsics avx

c++ - 同时使用多个 SIMD 指令集的好处

我正在编写一个高度并行的多线程应用程序。我已经编写了一个SSE加速线程类。如果我要编写一个MMX加速线程类，然后同时运行两者(每个核心一个SSE线程和一个MMX线程)，性能会显着提高吗？我认为此设置有助于隐藏内存延迟，但我想在开始投入时间之前先确定一下。最佳答案 SSE和MMX指令集在CPU中共享同一组vector处理执行单元。因此，运行一个SSE线程和一个MMX线程时，每个线程将拥有相同的可用资源，就像运行两个SSE线程(或两个MMX线程)一样。唯一的区别是存在于SSE而不是MMX中的指令(因为SSE是MMX的扩展)。但在那种情

amp 43 section SSE MMX c++c simd

c++ - 对象数组对齐用attributealigned() 还是alignas()？

快速提问，伙计们...这些代码spines是否具有相同的对齐方式？structsse_t{floatsse_data[4];};//thearray"cacheline"willbealignedto64-byteboundarystructsse_talignas(64)cacheline[1000000];或者//everyobjectoftypesse_twillbealignedto64-byteboundarystructsse_t{floatsse_data[4];}__attribute((aligned(64)));structsse_tcacheline[100000

amp attribute code sse_t sse c++caching compiler-optimization memory-alignment

C++ SSE3 指令集未启用

我正在尝试使用来自的HMMlib库在C++中处理一些隐藏的马尔可夫代码http://www.cs.au.dk/~asand/?page_id=152我使用的是ubuntu12.04，带有gcc/g++4.6我的编译步骤说明是:g++-I/usr/local/boost_1_52_0-I../MAIN.cpp这会产生以下错误:Infileincludedfrom../HMMlib/allocator_traits.hpp:25:0,from../HMMlib/hmm_table.hpp:25,fromMAIN.cpp:1:/usr/lib/gcc/i686-linux-gnu/4.6/i

amp 43 HMMlib traits error c++compiler-errors sse3

c++ - 从 SSE 切换到 AVX 会受到惩罚吗？

我知道在没有先将所有ymm寄存器的上半部分清零的情况下从AVX指令切换到SSE指令的现有惩罚，但在我的机器(i7-3939K3.2GHz)上的特殊情况下，似乎即使我确实在AVX代码部分前后明确使用_mm256_zeroupper，也会对相反方向(SSE到AVX)造成很大的惩罚。我已经编写了在32位float和32位定点整数之间转换的函数，在2个32768个元素宽的缓冲区上。我将一个SSE2内部版本直接移植到AVX以在SSE的4个元素上同时处理8个元素，期望看到显着的性能提升，但不幸的是，相反的情况发生了。所以，我有两个功能:voidConvertPcm32FloatToPcm32Fix

amp 43 256 const mm c++sse avx sse2

3 4 567 8 9