256

c++ - SIMD:实现 _mm256_max_epu64_ 和 _mm256_min_epu64_

我想问一个关于SIMD的问题。我的CPU中没有AVX512但想要一个_mm256_max_epu64.我们如何用AVX2实现这个功能？在这里，我尝试拥有我的微不足道的。也许我们可以将其作为讨论并加以改进。#defineSIMD_INLINEinline__attribute__((always_inline))SIMD_INLINE__m256i__my_mm256_max_epu64_(__m256ia,__m256ib){uint64_t*val_a=(uint64_t*)&a;uint64_t*val_b=(uint64_t*)&b;uint64_te[4];for(size_t

amp 256 code 64 c++simd avx2 avx512

c++ - 无法将 'int (*)[size]' 转换为 'int**'

我有一个256x256的二维float组，我试图将其传递给函数，但g++给我错误消息:无法将'int(*)[256]'转换为'int**'。我该如何解决这个问题？voidhaar2D(int**imgArr);intimageArray[256][256];haar2D(imageArray);我曾尝试将函数参数更改为int[256][256]和int*[256]类型，但没有成功。最佳答案必须按照编译器的要求声明函数参数。所以声明它要么像voidhaar2D(intimgArr[256][256]);或voidhaar2D(in

amp 39 code section 256 c++multidimensional-array parameters compiler-errors implicit-conversion

c++ - 在 C++ 中使用内在函数检查 nans

我刚开始使用内在函数，但我想编写一个函数，该函数采用4个double计算a>1e-5的vector？std::sqrt(a):0.0我的第一直觉是这样写#include__m256df(__m256da){__m256dis_valid=a>_mm256_set1_pd(1e-5);__m256dsqrt_val=_mm256_sqrt_pd(a);returnis_valid*sqrt_val;}根据gcc.godbolt.com编译为以下内容f(double__vector(4)):vsqrtpdymm1,ymm0vcmpgtpdymm0,ymm0,YMMWORDPTR.LC0[r

amp 43 code 256 long c++floating-point intrinsics

c++ - 什么是非时间流加载固有 (_mm256_stream_load_si256) 的浮点 (__m256d) 版本？

在AVX/AVX2中我只能找到_mm256_stream_load_si256()，用于__m256i。没有办法流式加载__m256d吗？为什么？(我想在不污染CPU缓存的情况下加载它)做下面的(aggressivecasting)有什么障碍吗？__m256d*pDest=/*...*/;__m256d*pSrc=/*...*/;/*...*/const__m256iiWeight=_mm256_stream_load_si256(reinterpret_cast(pSrc));const__m256dprior=_mm256_div_pd(*reinterpret_cast(&iWe

256 固有 code noreferrer c++x86 simd intrinsics avx2

c++ - 使用 `__m256i` 中的值高效访问数组 - SIMD

关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭5年前。Improvethisquestion比方说，我有2个变量__m256i，名为rows和cols，它们里面的值是:rows:0,2,7,5,7,2,3,0cols:1,2,7,5,7,2,2,6现在，这些值代表8个点的x和y位置，因此，在这种情况下，我会有这些点:p0:[0,1],p1:[2,2],p2:[7,7],p3:[5,5]p4:[7,7],p5:[2,2],p6:[3,2],p7:[0,6]我还有一个名为lut的数组，它将具

amp 43 code section class c++arrays simd avx2

c++ - AVX 将 64 位整数转换为 64 位 float

我想使用AVX将4个打包的64位整数转换为4个打包的64位float。我试过类似的东西:int_64t*ls=(int64_t*)_mm_malloc(256,32);ls[0]=a;//...ls[3]=d;__mm256ipacked=_mm256_load_si256((__m256iconst*)ls);将在调试器中显示:(gdb)printpacked$4={1234,5678,9012,3456}到目前为止还好，但我能找到的唯一转换/转换操作是_mm256i_castsi256_pd，它无法满足我的要求:__m256dpd=_mm256_castsi256_pd(packe

amp float section code 256 c++c casting avx

c++ - 从 SSE 切换到 AVX 会受到惩罚吗？

我知道在没有先将所有ymm寄存器的上半部分清零的情况下从AVX指令切换到SSE指令的现有惩罚，但在我的机器(i7-3939K3.2GHz)上的特殊情况下，似乎即使我确实在AVX代码部分前后明确使用_mm256_zeroupper，也会对相反方向(SSE到AVX)造成很大的惩罚。我已经编写了在32位float和32位定点整数之间转换的函数，在2个32768个元素宽的缓冲区上。我将一个SSE2内部版本直接移植到AVX以在SSE的4个元素上同时处理8个元素，期望看到显着的性能提升，但不幸的是，相反的情况发生了。所以，我有两个功能:voidConvertPcm32FloatToPcm32Fix

amp 43 256 const mm c++sse avx sse2

c++ - 测试 AVX 寄存器是否包含一些相等的整数

考虑一个包含四个64位整数的256位寄存器。是否有可能在AVX/AVX2中有效地测试其中一些整数是否相等？例如:a){43,17,25,8}:结果必须是false因为4个数字中没有2个是相等的。b){47,17,23,17}:结果必须为“真”，因为编号17在AVXvector寄存器中出现2次。如果可能的话，我想在C++中执行此操作，但如有必要，我可以转到汇编。最佳答案对于AVX512(AVX512VL+AVX512CD)，您将使用VPCONFLICTQ，专为此目的而设计。对于AVX2:通过减少冗余比较减少了一些操作:inttes

寄存 amp 256 code epi c++x86 simd avx avx2

c++ - 在 C++ SIMD 中将带符号的短整数转换为 float

我有一个带符号的short数组，我想将其除以2048并得到一个float数组。我找到了SSE:convertshortintegertofloat允许将unsigned短裤转换为float，但我也想处理已签名的短裤。下面的代码有效，但仅适用于正短路。//Wewanttodividesomesignedshortby2048andgetafloat.constautofloatScale=_mm256_set1_ps(2048);short*shortsInput=/*valuesfromsomewhere*/;float*floatsOutput=/*initialized*/;__m

amp 43 39 256 float c++sse simd avx2

c++ - 使用 g++ 对带位操作的循环进行自动矢量化

是否可以矢量化此循环(使用g++)？charx;intk;for(ints=0;s>=2;}A和B是指向非重叠float组的指针；B的索引为0到3。我需要最大限度地提高可移植性，因为这是一个R包，所以最好的方式是重写g++能够单独对其进行矢量化，因为我不知道如何在这种情况下使SSE代码可移植(RcppEigen包使库Eigen可用，所以这是可能的)。非常感谢您的想法。P.S.嵌套的代码看起来像intk=0;for(size_tj=0;j>=2;}} 最佳答案有一个使用AVX2的解决方案:__m256_B=_mm256_setr_p

amp 矢量化 code 256 section c++g++vectorization simd

10 11 121314 15 16