AVX512_草庐IT

c++ - 使用 SSE/AVX 内在函数的快速点积

我正在寻找一种快速方法来计算具有3或4个分量的vector的点积。我尝试了几件事，但大多数在线示例都使用float组，而我们的数据结构不同。我们使用16字节对齐的结构。代码摘录(简化):structfloat3{floatx,y,z,w;//4thcomponentunusedhere}structfloat4{floatx,y,z,w;}在之前的测试中(使用SSE4内在点积或FMA)，与使用以下常规C++代码相比，我无法获得加速。floatdot(constfloat3a,constfloat3b){returna.x*b.x+a.y*b.y+a.z*b.z;}测试是在IntelIv

c++ - SSE/AVX 寄存器的非零字节索引

如果SSE/AVX寄存器的值使其所有字节都为0或1，是否有任何方法可以有效地获取所有非零元素的索引？例如，如果xmm值为|r0=0|r1=1|r2=0|r3=1|r4=0|r5=1|r6=0|...|r14=0|r15=1|结果应该类似于(1,3,5,...,15)。结果应放在另一个_m128i变量或char[16]数组中。如果有帮助，我们可以假设寄存器的值是所有字节都是0或某个常量非零值(不一定是1)。我很想知道是否有针对该指令的指令，或者最好是C/C++内在指令。在任何SSE或AVX指令集中。编辑1:它是正确的observedby@zx485那个最初的问题还不够清楚。我一直在寻找任

c++ - AVX 中的矩阵向量乘法并不按比例比 SSE 中快

我正在使用以下代码在SSE和AVX中编写矩阵vector乘法:for(size_ti=0;i我对AVX使用了类似的方法，但是最后，由于AVX没有与_mm_store_ss()等效的指令，我使用了:_mm_store_ss(&C[i],_mm256_castps256_ps128(sum));SSE代码比串行代码提速3.7。然而，AVX代码只比串行代码快了4.3。我知道将SSE与AVX一起使用会导致问题，但我使用g++使用-mavx'标志编译它，这应该会删除SSE操作码。我也可以使用:_mm256_storeu_ps(&C[i],sum)来做同样的事情，但加速是一样的。关于我还可以做些什

c++ - 英特尔 AVX 内在函数 : any compatibility library out?

是否有任何英特尔AVX内部函数库？我正在寻找类似于“sse2mmx.h”header的东西，如果SSE2整数内在函数在编译时不可用，它会回退到MMX内在函数。因此，如果我有类似的AVX库，我可以为新硬件编写优化代码，在AVX扩展不可用的情况下，它几乎可以达到最佳速度。谷歌搜索到目前为止没有多大帮助:( 最佳答案英特尔提供了一个AVXemulationheader.我没有尝试过，但引用了链接的文章“AVX仿真头文件使用内部函数来扩展IntelSSE4.2之前的Intel指令集。您的开发环境和硬件需要SSE4.2支持，以便使用AVX仿

c++ - 使用 C/C++ 在同一可执行文件中进行不同的优化(普通、SSE、AVX)

我正在为我的3D计算开发优化，我现在有:使用标准C语言库的“plain”版本，SSE优化版本，使用预处理器编译#defineUSE_SSE，AVX优化版本，使用预处理器编译#defineUSE_AVX是否可以在3个版本之间切换而不必编译不同的可执行文件(例如，具有不同的库文件并动态加载“正确”的库文件，不知道inline函数是否“对”)？我还会考虑在软件中使用这种开关的性能。最佳答案对此有多种解决方案。一个基于C++，您可以在其中创建多个类-通常，您实现一个接口(interface)类，并使用工厂函数为您提供正确类的对象。例如c

c++ - AVX2 在 Haswell 上比 SSE 慢

我有以下代码(正常、SSE和AVX):inttestSSE(constaligned_vector&ghs,constaligned_vector&lhs){intresult[4]__attribute__((aligned(16)))={0};__m128ivresult=_mm_set1_epi32(0);__m128iv1,v2,vmax;for(intk=0;kmymax){mymax=result[k];}}returnmymax;}inttestAVX(constaligned_vector&ghs,constaligned_vector&lhs){intresult[8

c++ - g++-4.8 中缺少 AVX 日志内在函数 (_mm256_log_ps)？

我试图在我的代码中使用一些AVX内在函数，但遇到了对数内在函数的障碍。使用适用于Linux的IntelIntrinsicsGuidev3.0.1，我看到内在_mm256_log_ps(__m256)被列为“immintrin.h”的一部分，并且在我当前的arch上也受支持。然而，尝试编译这个简单的测试用例失败并显示“错误:‘_mm256_log_ps’未在此范围内声明”这个例子是用g++-4.8-march=native-mavxtest.cpp编译的#includeintmain(){__m256i;_mm256_log_ps(i);}我是否遗漏了一些基本的东西？某些内在函数是否不受

c++ - 将 AVX 与 GCC 一起使用 - 缺少 avxintrin.h

我在Ubuntu-64位12.04LTS上运行我的笔记本电脑(coreI5)。我正在尝试进入AVX以生成一些随机数。在Eclipse-CDT中，我使用LinuxGCC创建了一个新的C++“HelloWorld”项目。我包含了immintrin.h并尝试加载__m256类型的东西。编译器抛出一个错误:在此范围内未声明类型“__m256”我查看了immintrin.h并查找了avxintrin.h，以防万一，有拼写错误。单击avxintrin.h上的打开声明时，Eclipse说:Couldnotfindincludefile'avxintrin.h'onincludepaths无论如何，该

c++ - 使用 AVX 后 SSE 运行缓慢

这个问题在这里已经有了答案:WhyisthisSSEcode6timesslowerwithoutVZEROUPPERonSkylake?(2个答案)关闭11个月前。此帖于11个月前编辑提交审核，未能重开帖子:原始关闭原因未解决我在处理一些SSE2和AVX代码时遇到了一个奇怪的问题。我正在使用运行时cpu功能检测的GCC构建我的应用程序。目标文件是为每个CPU功能使用单独的标志构建的，例如:g++-c-oConvertSamples_SSE.oConvertSamples_SSE.cpp-std=c++11-fPIC-O0-g-Wall-I./include-msseg++-c-oCo

c++ - 使用 SIMD 指令执行任意 128/256/512 位排列的最快方法是什么？

我想在宽度为128、256或512位的CPU寄存器(xmm、ymm或zmm)上执行单个位、位对和半字节(4位)的任意排列；这应该尽可能快。为此，我正在研究SIMD指令。有谁知道执行此操作的方法/实现它的库？我在Windows上使用MSVC，在Linux上使用GCC，宿主语言是C或C++。谢谢!我得到了一个任意排列，需要打乱大量的位vector/位vector对/半字节。我知道如何为64位值中的位执行此操作，例如usingaBenesnetwork.或者在更宽的SIMD寄存器上混洗8位和更大的block，例如将AgnerFog的GPLedVectorClass库(https://www.