Intrinsics_草庐IT

c++ - 如何使用 SSE 执行 8 x 8 矩阵运算？

我最初的尝试是这样的(假设我们想要相乘)__m128mat[n];/*rows*/__m128vec[n]={1,1,1,1};floatoutvector[n];for(introw=0;row但这显然行不通。我该如何处理？我应该一次加载4个......另一个问题是:如果我的数组很大(比如n=1000)，我怎样才能使它16字节对齐？这可能吗？最佳答案好的...我将使用行优先矩阵约定。[m]的每一行需要(2)个__m128元素来产生8个float。8x1vectorv是一个列vector。由于您使用的是haddps指令，因此我假

c++ - 使用英特尔 AVX 通过掩码改组

我是AVX编程的新手。我有一个需要洗牌的寄存器。我想将几个字节从256位寄存器R1混洗到空寄存器R2。我想定义一个掩码，它告诉混洗操作应该将旧寄存器(R1)中的哪个字节复制到新寄存器的哪个位置。掩码应如下所示(R1中的Src:BytePos，R2中的Target:BytePos):{(0,0),(1,1),(1,4),(2,5),...}这意味着几个字节被复制了两次。我不是100%确定我应该为此使用哪个函数。我尝试了这两个AVX功能，第二个只使用了2个channel。__m256_mm256_permute_ps(__m256a,intimm8)__m256_mm256_shuffle

c++ - Arm NEON 和 poly8_t 和 poly16_t

我最近一直在研究内在函数的NEON优化，我遇到了poly8_t和poly16_t数据类型。然后我想知道它们到底是什么。我已经在网上搜索了所有内容，但到目前为止还没有找到关于它们是什么的任何解释。谁能给我解释一下？编辑:感谢您的回答，但如果只是乘法等的不同方式，为什么它具有完全不同的数据类型？最佳答案左=常规乘法，右=无进位乘法11011101*10011001-------------->--------------(1)1101对角递减矩阵中的每个1或0表示来自vector“1101”的一个源位与来自另一个vector“100

c++ - 快速将 2 个 double 数组交织成具有 2 个 float 和 1 个 int(循环不变)成员的结构数组，并使用 SIMD double->float 转换？

我有一段代码是在x86处理器上运行的C++应用程序的瓶颈，我们从两个数组中获取double值，转换为float并存储在结构数组中。这是一个瓶颈的原因是它被调用时有非常大的循环，或者被调用了数千次。是否有使用SIMDIntrinsics执行此复制和强制转换操作的更快方法？我看过thisansweronfastermemcpy但没有解决类型转换问题。简单的C++循环情况如下所示int_iNum;constunsignedint_uiDefaultOffset;//aconstantdouble*pInputValues1;//arrayofdoublevalues,count=_iNum;

c++ - 上证所该向上舍入时向下舍入

我正在开发一个将-1.0到1.0范围内的Float样本转换为有符号16位的应用程序，以确保优化(SSE)例程的输出准确我已经编写了一组运行非针对SSE版本优化的版本并比较它们的输出。在我开始之前，我已经确认SSE舍入模式设置为最近。在我的测试用例中，公式是:ratio=65536/2output=round(input*ratio)在大多数情况下，结果是准确的，但在一个特定的输入上，我发现输入-0.8499908447265625失败。-0.8499908447265625*(65536/2)=-27852.5普通代码正确地将其舍入为-27853，但SSE代码将其舍入为-27852。这

c++ - 如何指示编译器为 __m128 生成未对齐的加载

我有一些代码可以使用__m128值。我在这些值上使用x86-64SSE内在函数，我发现如果这些值在内存中未对齐，我会崩溃。这是由于我的编译器(在本例中为clang)仅生成对齐的加载指令。我能否指示我的编译器生成未对齐的加载，无论是全局加载还是针对某些值(可能带有某种注释)？首先我有未对齐值的原因是我试图节省内存。我有一个struct大致如下:#pragmapack(push,4)structFoobar{__m128a;__m128b;intc;};#pragmapack(pop)然后我将创建这些结构的数组。数组中的第二个元素从36字节开始，不是16的倍数。我知道我可以切换到数组表示的

c++ - 从 64 位无符号整数初始化 __m128 类型

_mm_set_epi64和类似的*_epi64指令似乎使用并依赖于__m64类型。我想初始化一个__m128类型的变量，使其高64位为0，低64位设为x，其中x是uint64_t类型(或类似的无符号64位类型)。这样做的“正确”方法是什么？最好，这应该以独立于编译器的方式完成。最佳答案回答有关如何将64位值加载到XMM寄存器的低64位同时将高64位清零的问题_mm_loadl_epi64(&x)willdoexactlywhatyouwant.关于_mm_set_epi64我曾说过，查看AgnerFog的源代码VectorCl

c++ - 检查 XMM 寄存器是否全为零

有没有办法检查__m128i变量中的所有位/字节/字等是否为0？在我的应用程序中，我必须检查__m128i变量中的所有整数是否都为零。我是否必须提取它们并分别进行比较？编辑:我现在做的是:intnext=0;do{//somecodenext=idata.m128i_i32[0]+idata.m128i_i32[1]+idata.m128i_i32[2]+idata.m128i_i32[3];}while(next>0);我需要的是检查idata是否全为零，而不必访问每个单独的元素，如果是则退出循环...根据Harold的评论，这是解决方案:__m128iidata=_mm_setr_

c++ - 检查所有 __m128i 组件是否为 0 的最有效方法 [使用 <= SSE4.1 内在函数]

我正在使用SSE内在函数来确定矩形(由四个int32值定义)是否已更改:__m128ioldRect;//containsoldleft,top,right,bottompackedto128bits__m128inewRect;//containsnewleft,top,right,bottompackedto128bits__m128ixor=_mm_xor_si128(oldRect,newRect);此时，如果矩形未更改，生成的xor值将全为零。那么确定这一点的最有效方法是什么？目前我正在这样做:if(xor.m128i_u64[0]|xor.m128i_u64[1]){//r

c++ - 使用 AVX 模拟 32 字节的移位

我正在将使用SSE2内在函数编写的矢量化代码迁移到AVX2内在函数。令我非常失望的是，我发现移位指令_mm256_slli_si256和_mm256_srli_si256仅分别对AVX寄存器的两半进行操作，并且在其间引入了零。(这与处理整个SSE寄存器的_mm_slli_si128和_mm_srli_si128形成对比。)你能给我推荐一个简短的替代品吗？更新:_mm256_slli_si256可以通过高效实现_mm256_alignr_epi8(A,_mm256_permute2x128_si256(A,A,_MM_SHUFFLE(0,0,3,0)),N)或_mm256_slli_si