草庐IT

c++ - SIMD:实现 _mm256_max_epu64_ 和 _mm256_min_epu64_

我想问一个关于SIMD的问题。我的CPU中没有AVX512但想要一个_mm256_max_epu64.我们如何用AVX2实现这个功能?在这里,我尝试拥有我的微不足道的。也许我们可以将其作为讨论并加以改进。#defineSIMD_INLINEinline__attribute__((always_inline))SIMD_INLINE__m256i__my_mm256_max_epu64_(__m256ia,__m256ib){uint64_t*val_a=(uint64_t*)&a;uint64_t*val_b=(uint64_t*)&b;uint64_te[4];for(size_t

c++ - 无法将 'int (*)[size]' 转换为 'int**'

我有一个256x256的二维float组,我试图将其传递给函数,但g++给我错误消息:无法将'int(*)[256]'转换为'int**'。我该如何解决这个问题?voidhaar2D(int**imgArr);intimageArray[256][256];haar2D(imageArray);我曾尝试将函数参数更改为int[256][256]和int*[256]类型,但没有成功。 最佳答案 必须按照编译器的要求声明函数参数。所以声明它要么像voidhaar2D(intimgArr[256][256]);或voidhaar2D(in

c++ - 在 C++ 中使用内在函数检查 nans

我刚开始使用内在函数,但我想编写一个函数,该函数采用4个double计算a>1e-5的vector?std::sqrt(a):0.0我的第一直觉是这样写#include__m256df(__m256da){__m256dis_valid=a>_mm256_set1_pd(1e-5);__m256dsqrt_val=_mm256_sqrt_pd(a);returnis_valid*sqrt_val;}根据gcc.godbolt.com编译为以下内容f(double__vector(4)):vsqrtpdymm1,ymm0vcmpgtpdymm0,ymm0,YMMWORDPTR.LC0[r

c++ - 什么是非时间流加载固有 (_mm256_stream_load_si256) 的浮点 (__m256d) 版本?

在AVX/AVX2中我只能找到_mm256_stream_load_si256(),用于__m256i。没有办法流式加载__m256d吗?为什么?(我想在不污染CPU缓存的情况下加载它)做下面的(aggressivecasting)有什么障碍吗?__m256d*pDest=/*...*/;__m256d*pSrc=/*...*/;/*...*/const__m256iiWeight=_mm256_stream_load_si256(reinterpret_cast(pSrc));const__m256dprior=_mm256_div_pd(*reinterpret_cast(&iWe

c++ - 使用 `__m256i` 中的值高效访问数组 - SIMD

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗?通过editingthispost添加细节并澄清问题.关闭5年前。Improvethisquestion比方说,我有2个变量__m256i,名为rows和cols,它们里面的值是:rows:0,2,7,5,7,2,3,0cols:1,2,7,5,7,2,2,6现在,这些值代表8个点的x和y位置,因此,在这种情况下,我会有这些点:p0:[0,1],p1:[2,2],p2:[7,7],p3:[5,5]p4:[7,7],p5:[2,2],p6:[3,2],p7:[0,6]我还有一个名为lut的数组,它将具

c++ - AVX 将 64 位整数转换为 64 位 float

我想使用AVX将4个打包的64位整数转换为4个打包的64位float。我试过类似的东西:int_64t*ls=(int64_t*)_mm_malloc(256,32);ls[0]=a;//...ls[3]=d;__mm256ipacked=_mm256_load_si256((__m256iconst*)ls);将在调试器中显示:(gdb)printpacked$4={1234,5678,9012,3456}到目前为止还好,但我能找到的唯一转换/转换操作是_mm256i_castsi256_pd,它无法满足我的要求:__m256dpd=_mm256_castsi256_pd(packe

c++ - 从 SSE 切换到 AVX 会受到惩罚吗?

我知道在没有先将所有ymm寄存器的上半部分清零的情况下从AVX指令切换到SSE指令的现有惩罚,但在我的机器(i7-3939K3.2GHz)上的特殊情况下,似乎即使我确实在AVX代码部分前后明确使用_mm256_zeroupper,也会对相反方向(SSE到AVX)造成很大的惩罚。我已经编写了在32位float和32位定点整数之间转换的函数,在2个32768个元素宽的缓冲区上。我将一个SSE2内部版本直接移植到AVX以在SSE的4个元素上同时处理8个元素,期望看到显着的性能提升,但不幸的是,相反的情况发生了。所以,我有两个功能:voidConvertPcm32FloatToPcm32Fix

c++ - 测试 AVX 寄存器是否包含一些相等的整数

考虑一个包含四个64位整数的256位寄存器。是否有可能在AVX/AVX2中有效地测试其中一些整数是否相等?例如:a){43,17,25,8}:结果必须是false因为4个数字中没有2个是相等的。b){47,17,23,17}:结果必须为“真”,因为编号17在AVXvector寄存器中出现2次。如果可能的话,我想在C++中执行此操作,但如有必要,我可以转到汇编。 最佳答案 对于AVX512(AVX512VL+AVX512CD),您将使用VPCONFLICTQ,专为此目的而设计。对于AVX2:通过减少冗余比较减少了一些操作:inttes

c++ - 在 C++ SIMD 中将带符号的短整数转换为 float

我有一个带符号的short数组,我想将其除以2048并得到一个float数组。我找到了SSE:convertshortintegertofloat允许将unsigned短裤转换为float,但我也想处理已签名的短裤。下面的代码有效,但仅适用于正短路。//Wewanttodividesomesignedshortby2048andgetafloat.constautofloatScale=_mm256_set1_ps(2048);short*shortsInput=/*valuesfromsomewhere*/;float*floatsOutput=/*initialized*/;__m

c++ - 使用 g++ 对带位操作的循环进行自动矢量化

是否可以矢量化此循环(使用g++)?charx;intk;for(ints=0;s>=2;}A和B是指向非重叠float组的指针;B的索引为0到3。我需要最大限度地提高可移植性,因为这是一个R包,所以最好的方式是重写g++能够单独对其进行矢量化,因为我不知道如何在这种情况下使SSE代码可移植(RcppEigen包使库Eigen可用,所以这是可能的)。非常感谢您的想法。P.S.嵌套的代码看起来像intk=0;for(size_tj=0;j>=2;}} 最佳答案 有一个使用AVX2的解决方案:__m256_B=_mm256_setr_p