AVX2

c++ - 有符号的 8 位元素的 AVX2 整数乘法，产生有符号的 16 位结果？

我有两个__m256ivector，填充了32个8位整数。像这样:__int8*a0=new__int8[32]{2};__int8*a1=new__int8[32]{3};__m256iv0=_mm256_loadu_si256((__m256i*)a0);__m256iv1=_mm256_loadu_si256((__m256i*)a1);我如何使用类似_mm256_mul_epi8(v0,v1)(不存在)或任何其他方式来乘以这些vector？我想要2个结果vector，因为输出元素宽度是输入元素宽度的两倍。或者类似于_mm_mul_epu32的东西也可以，只使用偶数输入元素(0、

amp 43 256 epi print_epi c++simd avx avx2

c++ - 使用 AVX 指令实现 _mm256_permutevar8x32_ps

AVX2内在_mm256_permutevar8x32_ps可以跨channel执行洗牌，这对于长度为8的数组排序非常有用。现在我只有AVX(IvyBridge)并且想在最少的周期内做同样的事情。请注意，数据和索引都是输入的，并且在编译时是未知的。例如，数组是[1,2,3,4,5,6,7,8]，索引是[3,0,1,7,6,5,2,4]，输出应该是[4,1,2,8,7,6,3,5]。大多数方便的内部函数的控制掩码必须是常量(没有“var”后缀)，因此不适合这种情况。提前致谢。最佳答案要在AVX中跨channel置换，您可以在cha

permutevar8x permutevar8 256 code index c++sse simd avx

c++ - AVX2 赢家通吃差异搜索

我正在使用AVX2优化视差估计算法的“赢家通吃”部分。我的标量例程是准确的，但在QVGA分辨率和48个视差下，我的笔记本电脑上的运行时间慢得令人失望，大约为14毫秒。我创建了LR和RL视差图像，但为了简单起见，我将只包含RL搜索的代码。我的标量例程:intMAXCOST=32000;for(inti=maskRadius;i我尝试使用AVX2:intMAXCOST=32000;int*dispVals=(int*)_mm_malloc(sizeof(int32_t)*16,32);for(inti=maskRadius;i视差空间图像(DSI)的大小为HxWxD(320x240x48)

通吃 amp 256 cstep br c++sse avx disparity-mapping avx2

c++ - 使用 SIMD AVX 计算两个排序数组的对称差异的大小

我正在寻找一种方法来优化我正在研究的算法。它是最重复的，因此计算密集型部分是比较两个任意大小的排序数组，包含唯一的无符号整数(uint32_t)值以获得它们的对称差的大小(元素的数量仅存在于其中一个vector中)。将部署该算法的目标机器使用支持AVX2的英特尔处理器，因此我正在寻找一种使用SIMD就地执行它的方法。有没有办法利用AVX2指令来获取两个已排序的无符号整数数组的对称差的大小？最佳答案由于两个数组都已排序，因此使用SIMD(AVX2)实现此算法应该相当容易。您只需要同时遍历两个数组，然后当比较两个8整数vector时

amp 43 section 的时出 c++algorithm sse simd avx

c++ - 使用 AVX2 将 8 位从 32 位值 (m256i) 解压到 m256 的最快方法

我有一个名为A的数组，它包含32个unsignedchar值。我想使用此规则将这些值解压缩到4个__m256变量中，假设我们有一个从0到31的索引，关于A中的所有值，解压缩的4变量将具有这些值:B_0=A[0],A[4],A[8],A[12],A[16],A[20],A[24],A[28]B_1=A[1],A[5],A[9],A[13],A[17],A[21],A[25],A[29]B_2=A[2],A[6],A[10],A[14],A[18],A[22],A[26],A[30]B_3=A[3],A[7],A[11],A[15],A[19],A[23],A[27],A[31]为此，我有

amp 256 code section c++performance simd avx2

c++ - 我可以使用 AVX2 分散指令来加速某些加载吗？

我分析了我拥有的一个AVX2-heavy函数，瓶颈如下所示:std::uint64_tdata[8];//Somecomputationthatfillsdatastd::uint64_tX[4]={data[7],data[5],data[3],data[1]};__m256ivec=_mm256_loadu_si256(reinterpret_cast(X));//Computemorewithvec//Lateronusedata[6],data[4],data[2],anddata[0]inasimilarfashion实际上，数组也是适当对齐的(所以load而不是loadu)

分散 amp code section data c++avx2

c++ - 如何使用 avx 指令将 float vector 转换为 short int？

基本上，我如何使用AVX2内在函数编写与此等效的内容？我们这里假设result_in_float是__m256类型，而result是shortint*或短整数[8]。for(i=0;i我知道可以使用__m256i_mm256_cvtps_epi32(__m256m1)内在函数将float转换为32位整数，但不知道如何将这些32位整数进一步转换为16位整数。而且我不仅想要那个，还想要将这些值(以16位整数的形式)存储到内存中，我想全部使用vector指令来完成。在互联网上搜索，我发现了一个名为_mm256_mask_storeu_epi16的内在函数，但我不确定这是否能解决问题，因为我找

amp vector code 256 section c++c gcc avx avx2

c++ - AVX2 代码比没有 AVX2 慢

我一直在尝试开始使用AVX2指令，但运气不佳(this函数列表很有帮助)。最后，我编译了我的第一个程序并做我想做的事。我要做的程序需要两个u_char并把它加倍。本质上，我使用它来解码存储在来自相机的u_char数组中的数据，但我认为与此问题无关。获取double的过程两者中的u_char是:doubleresult=sqrt(double((msb哪里msb和lsb是两个u_char具有最高有效位(msb)和较低有效位(lsb)的变量double计算。数据存储在表示行主矩阵的数组中，其中msb和lsb值编码列i分别在第二行和第三行。我在有和没有AVX2的情况下对此进行了编码:void

AVX2 amp 0xf code xf c++performance x86

c++ - AVX计算精度

我写了一个程序来显示mandelbrot集。为了加快速度，我通过使用了AVX(实际上是AVX2)指令。header。问题是:AVX计算(double)的结果有伪影，它与使用“正常”double计算的结果不同。详细来说，有一个函数getIterationCount它计算直到mandelbrot序列超过4的迭代次数，或者如果序列在前N个步骤中不超过4，则假定该点包含在集合中。代码如下所示:#include"stdafx.h"#include#include#includeclassMandelbrotSet{public:intgetIterationCount(conststd::com

amp 43 256 code currentReal c++avx avx2 mandelbrot

c++ - SIMD:实现 _mm256_max_epu64_ 和 _mm256_min_epu64_

我想问一个关于SIMD的问题。我的CPU中没有AVX512但想要一个_mm256_max_epu64.我们如何用AVX2实现这个功能？在这里，我尝试拥有我的微不足道的。也许我们可以将其作为讨论并加以改进。#defineSIMD_INLINEinline__attribute__((always_inline))SIMD_INLINE__m256i__my_mm256_max_epu64_(__m256ia,__m256ib){uint64_t*val_a=(uint64_t*)&a;uint64_t*val_b=(uint64_t*)&b;uint64_te[4];for(size_t

amp 256 code 64 c++simd avx2 avx512

123 4 5