Intrinsics

c++ - 为什么不应该直接访问 __m128i 字段？

我正在阅读thisonMSDN,它说Youshouldnotaccessthe__m128ifieldsdirectly.Youcan,however,seethesetypesinthedebugger.Avariableoftype__m128imapstotheXMM[0-7]registers.但是，它并没有解释为什么。为什么？例如，是下面的“坏”:voidfunc(unsignedshortx,unsignedshorty){__m128ia;a.m128i_i64[0]=x;__m128ib;b.m128i_i64[0]=y;//Nowdosomethingwithaand

接访 amp section code vector c++sse intrinsics

c++ - "vperm v0,v0,v0,v17"和未使用的 v0 有什么作用？

我正在研究SHA-256implementation使用Power8built-ins.性能有点差。我估计它每字节(cpb)关闭了大约2个周期。在block上执行SHA的C/C++代码如下所示://Schedule64-bytemessageSHA256_SCHEDULE(W,data);uint32x4_p8a=abcd,e=efgh;uint32x4_p8b=VectorShiftLeft(a);uint32x4_p8f=VectorShiftLeft(e);uint32x4_p8c=VectorShiftLeft(b);uint32x4_p8g=VectorShiftLeft(f

amp v0 code 32 10000b c++gcc sha intrinsics powerpc

c++ - AVX 4 位整数

我需要执行以下操作:w[i]=scale*v[i]+pointscale和point是固定的，而v[]是一个4位整数vector。我需要为任意输入vectorv[]计算w[]并且我想使用AVX内在函数来加速这个过程。但是，v[i]是一个4位整数vector。问题是如何使用内在函数对4位整数执行运算？我可以使用8位整数并以这种方式执行操作，但有没有办法执行以下操作:[a,b]+[c,d]=[a+b,c+d][a,b]*[c,d]=[a*b,c*d](忽略溢出)使用AVX内在函数，其中[...,...]是8位整数，a、b、c、d是4位整数？如果是，是否可以举一个简短的例子来说明它是如何工作

amp 43 code section uint c++c vectorization intrinsics avx

c++ - 未解析的外部符号 __mm256_setr_epi64x

我已经用g++编写和调试了一些AVX代码，现在我正试图让它与MSVC一起工作，但我不断得到errorLNK2019:unresolvedexternalsymbol__mm256_setr_epi64xreferencedinfunction"private:union__m256i__thiscallavx_matrix::avx_bit_mask(unsignedint)const"(?avx_bit_mask@avx_matrix@@ABE?AT__m256i@@I@Z)引用的代码是...#include.../*Allzerosexceptforpos-thposition(0

amp setr_epi pos 256 lt c++visual-studio-2012 intrinsics avx msvc12

C++ 错误 : ‘_mm_sin_ps’ was not declared in this scope

我正在尝试对将函数应用于数组的不同方法进行基准测试。为什么是https://software.intel.com/sites/landingpage/IntrinsicsGuide/#expand=3260,2124,4779,4779&cats=Trigonometry&text=_sin_mm_sin_ps在我的范围内未知，但_mm_sqrt_ps是？我如何让它为人所知？并编译无误。#include#include#include#include#include#include#include"immintrin.h"#includeintmain(){std::coutdis(-

amp mm_sin_ps enable with include c++optimization sse simd intrinsics

c++ - 使用 sse intrinsics 的 (A)RGB32 图像最快 50% 缩放

我想在C++中尽可能快地缩小图像。Thisarticle描述了如何有效地将32位rgb图像平均降低50%。它速度快，看起来不错。我尝试使用sse内在函数修改该方法。下面的代码在启用或不启用SSE的情况下都有效。然而，令人惊讶的是，加速可以忽略不计。任何人都可以找到改进SSE代码的方法吗？创建varsshuffle1和shuffle2的两条线似乎是候选者(使用一些巧妙的移位或类似方法)。/**Calculatestheaverageoftworgb32pixels.*/inlinestaticuint32_tavg(uint32_ta,uint32_tb){return(((a^b)&0

intrinsics amp 128 32 i_u c++sse

c++ - ICC 中的 -O3 搞乱了内在函数，与 -O1 或 -O2 或相应的手动组装一起使用

这是对thisquestion的跟进.下面的4x4矩阵乘法C=AB的代码在所有优化设置的ICC上都可以正常编译。它在-O1和-O2上正确执行，但在-O3上给出不正确的结果。问题似乎来自_mm256_storeu_pd操作，因为用下面的asm语句替换它(并且只有它)会在执行后给出正确的结果。有什么想法吗？inlinevoidRunIntrinsics_FMA_UnalignedCopy_MultiplyMatrixByMatrix(double*A,double*B,double*C){size_ti;/*theregistersyouuse*/__m256da0,a1,a2,a3,b0

搞乱内在 0x ymm lt c++assembly optimization intrinsics icc

c++ - 如何在 C/C++ 中执行 _mm256_maskstore_epi8()？

问题我想做的是，如果我有一个27(不是32!)的vectorint8_t:x={0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26}我想首先将它向右循环移位n(不是常数)，例如如果n=1:x2={26,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25}然后这个vector被用来做一些非常复杂的计算，但是为了简单起见，我们假设下一步只是将它循环左移n，然后存入内存。所以我应该有一个新的vector27int8_t:

amp 43 256 code 27 c++simd intrinsics avx avx2

c++ - 不同的内在行为取决于 GCC 版本

我对内在函数很陌生，我在GCC-7.4和GCC-8.3中遇到了我的代码的不同行为我的代码很简单b.cpp:#include#includevoidfoo(constfloatnum,constfloatdenom){const__v4sfnum4={num,num,num,num,};const__v4sfdenom4={denom,denom,denom,denom,};floatres_arr[]={0,0,0,0};__v4sf*res=(__v4sf*)res_arr;*res=num4/denom4;std::cout在b.cpp中，我们基本上只是从浮点变量构造两个__v4s

取决于取决 code denom section c++gcc undefined-behavior intrinsics

c++ - SIMD 内部函数 : _mm_stream_load_si128 vs _mm_load_si128

什么时候应该使用流媒体版本以及什么时候使用SSE2与_mm_load_si128？什么是性能权衡？最佳答案流加载内在(mm_stream_load_si128)执行加载“使用非时间内存提示”(根据IntelIntrinsicsGuide)。这意味着加载的值不会导致从缓存中逐出任何内容。如果您将大量数据组合在一起，您将立即对其进行操作并且“很长”一段时间内不再查看，这将非常有用。最常见的情况是在流操作期间发生这种情况。当我知道我正在对一个大数据集执行一个简单的操作时，我就使用过它，我知道数据无论如何都会很快从缓存中被逐出。memc

mm_stream_load_si load section 从缓流式 c++intrinsics

1 2 345 6 7