intrinsics

c++ - std::AVX 内在函数数组

我不知道我对AVX内在函数如何与std::array一起工作的理解是否遗漏了什么，但是当我将两者结合使用时，我遇到了一个奇怪的Clang问题。示例代码:std::arraygen_data(){std::arrayres;res[0]=_mm256_set1_ps(1);returnres;}voidmain(){autov=gen_data();floata[8];_mm256_storeu_ps(a,v[0]);for(size_ti=0;iClang3.5.0的输出(上面的4个float是垃圾数据):11118.82272e-3905.88148e-390GCC4.8.2/4.9

数数内在 code section array c++clang intrinsics avx

c++ - Visual Studio 2017 : _mm_load_ps often compiled to movups

我正在查看为我的代码生成的程序集(使用VisualStudio2017)并注意到_mm_load_ps经常(总是？)编译为movups。我使用_mm_load_ps的数据定义如下:structalignas(16)Vector{floatv[4];}//oftenembeddedinotherstructslikethisstructAABB{Vectormin;Vectormax;boolintersection(/*parameters*/)const;}现在，当我使用这个构造时，会发生以下情况://thiscode__mm128bb_min=_mm_load_ps(min.v);

mm_load_ps amp 英特 section 的 c++assembly sse intrinsics visual-studio-2017

c++ - 为什么不应该直接访问 __m128i 字段？

我正在阅读thisonMSDN,它说Youshouldnotaccessthe__m128ifieldsdirectly.Youcan,however,seethesetypesinthedebugger.Avariableoftype__m128imapstotheXMM[0-7]registers.但是，它并没有解释为什么。为什么？例如，是下面的“坏”:voidfunc(unsignedshortx,unsignedshorty){__m128ia;a.m128i_i64[0]=x;__m128ib;b.m128i_i64[0]=y;//Nowdosomethingwithaand

接访 amp section code vector c++sse intrinsics

c++ - "vperm v0,v0,v0,v17"和未使用的 v0 有什么作用？

我正在研究SHA-256implementation使用Power8built-ins.性能有点差。我估计它每字节(cpb)关闭了大约2个周期。在block上执行SHA的C/C++代码如下所示://Schedule64-bytemessageSHA256_SCHEDULE(W,data);uint32x4_p8a=abcd,e=efgh;uint32x4_p8b=VectorShiftLeft(a);uint32x4_p8f=VectorShiftLeft(e);uint32x4_p8c=VectorShiftLeft(b);uint32x4_p8g=VectorShiftLeft(f

amp v0 code 32 10000b c++gcc sha intrinsics powerpc

c++ - AVX 4 位整数

我需要执行以下操作:w[i]=scale*v[i]+pointscale和point是固定的，而v[]是一个4位整数vector。我需要为任意输入vectorv[]计算w[]并且我想使用AVX内在函数来加速这个过程。但是，v[i]是一个4位整数vector。问题是如何使用内在函数对4位整数执行运算？我可以使用8位整数并以这种方式执行操作，但有没有办法执行以下操作:[a,b]+[c,d]=[a+b,c+d][a,b]*[c,d]=[a*b,c*d](忽略溢出)使用AVX内在函数，其中[...,...]是8位整数，a、b、c、d是4位整数？如果是，是否可以举一个简短的例子来说明它是如何工作

amp 43 code section uint c++c vectorization intrinsics avx

c++ - 未解析的外部符号 __mm256_setr_epi64x

我已经用g++编写和调试了一些AVX代码，现在我正试图让它与MSVC一起工作，但我不断得到errorLNK2019:unresolvedexternalsymbol__mm256_setr_epi64xreferencedinfunction"private:union__m256i__thiscallavx_matrix::avx_bit_mask(unsignedint)const"(?avx_bit_mask@avx_matrix@@ABE?AT__m256i@@I@Z)引用的代码是...#include.../*Allzerosexceptforpos-thposition(0

amp setr_epi pos 256 lt c++visual-studio-2012 intrinsics avx msvc12

C++ 错误 : ‘_mm_sin_ps’ was not declared in this scope

我正在尝试对将函数应用于数组的不同方法进行基准测试。为什么是https://software.intel.com/sites/landingpage/IntrinsicsGuide/#expand=3260,2124,4779,4779&cats=Trigonometry&text=_sin_mm_sin_ps在我的范围内未知，但_mm_sqrt_ps是？我如何让它为人所知？并编译无误。#include#include#include#include#include#include#include"immintrin.h"#includeintmain(){std::coutdis(-

amp mm_sin_ps enable with include c++optimization sse simd intrinsics

c++ - 使用 sse intrinsics 的 (A)RGB32 图像最快 50% 缩放

我想在C++中尽可能快地缩小图像。Thisarticle描述了如何有效地将32位rgb图像平均降低50%。它速度快，看起来不错。我尝试使用sse内在函数修改该方法。下面的代码在启用或不启用SSE的情况下都有效。然而，令人惊讶的是，加速可以忽略不计。任何人都可以找到改进SSE代码的方法吗？创建varsshuffle1和shuffle2的两条线似乎是候选者(使用一些巧妙的移位或类似方法)。/**Calculatestheaverageoftworgb32pixels.*/inlinestaticuint32_tavg(uint32_ta,uint32_tb){return(((a^b)&0

intrinsics amp 128 32 i_u c++sse

c++ - ICC 中的 -O3 搞乱了内在函数，与 -O1 或 -O2 或相应的手动组装一起使用

这是对thisquestion的跟进.下面的4x4矩阵乘法C=AB的代码在所有优化设置的ICC上都可以正常编译。它在-O1和-O2上正确执行，但在-O3上给出不正确的结果。问题似乎来自_mm256_storeu_pd操作，因为用下面的asm语句替换它(并且只有它)会在执行后给出正确的结果。有什么想法吗？inlinevoidRunIntrinsics_FMA_UnalignedCopy_MultiplyMatrixByMatrix(double*A,double*B,double*C){size_ti;/*theregistersyouuse*/__m256da0,a1,a2,a3,b0

搞乱内在 0x ymm lt c++assembly optimization intrinsics icc

c++ - 如何在 C/C++ 中执行 _mm256_maskstore_epi8()？

问题我想做的是，如果我有一个27(不是32!)的vectorint8_t:x={0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26}我想首先将它向右循环移位n(不是常数)，例如如果n=1:x2={26,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25}然后这个vector被用来做一些非常复杂的计算，但是为了简单起见，我们假设下一步只是将它循环左移n，然后存入内存。所以我应该有一个新的vector27int8_t:

amp 43 256 code 27 c++simd intrinsics avx avx2

1 2 345 6 7