fn_avx_草庐IT

c++ - 强制 AVX 内在函数改用 SSE 指令

不幸的是我有一个AMD打桩机cpu，它似乎有AVX指令的问题:Memorywriteswiththe256-bitAVXregistersareexceptionallyslow.Themeasuredthroughputis5-6timesslowerthanonthepreviousmodel(Bulldozer),and8-9timesslowerthantwo128-bitwrites.根据我自己的经验，我发现mm256内部函数比mm128慢得多，我假设这是因为上述原因。不过，我真的很想为最新的指令集AVX编写代码，同时仍然能够以合理的速度在我的机器上测试构建。有没有办法强制m

改用内在 code section AVX c++visual-studio visual-c++sse

android - UnsatisfiedLinkError In Android 4.4 libDevil cannot locate symbol "png_set_longjmp_fn"

我有一个imageconvertergoogleplay上运行良好的应用程序，它结合了NDK，使用DevIL图像处理库支持更多文件格式。它在大多数设备上运行良好，但自从Android4.4Kitkat发布以来，我在GooglePlayConsole上收到了电子邮件和崩溃报告，尤其是来自具有4.4的Nexus设备以及现在接收更新的其他旧设备这是崩溃报告java.lang.UnsatisfiedLinkError:dlopenfailed:cannotlocatesymbol"png_set_longjmp_fn"referencedby"libdevil.so"...atjava.lan

UnsatisfiedLinkError png_set_longjmp_fn PATH SRC android android-ndk libpng

c++ - 为什么 MSVC 的自动矢量化不使用 AVX2？

我正在尝试在我的编译器(MicrosoftVisualStudio2013)中使用矢量化。我面临的问题之一是它不想使用AVX2。在研究这个问题时，我构建了以下示例，该示例计算16个数字的总和，每个数字都是16位。int16_tinput1[16]={0};int16_tinput2[16]={0};...//fillthearrayswithsomedata//Calculatethesumusingaloopint16_toutput1[16]={0};for(intx=0;x编译器将此代码矢量化，但仅限于SSE指令:vmovdquxmm1,xmmwordptr[rbp+rax]le

矢量化 amp code section c++c visual-studio-2013 vectorization avx2

c++ - Visual Studio C 编译器或 Intel Intrinsics 的 AVX2 "_mm256_set_epi64x"函数中的潜在错误

我在AVX2函数上遇到了IntelIntrinsics的一个非常奇怪的错误，我想在这里分享。要么是我做错了什么(此时我真的看不出是什么)，要么是库中的错误。我的main.c中有这个简单的代码:__int64test=0xFFFF'FFFF'FFFF'FFFF;__m256iymm=_mm256_set_epi64x(0x0000'0000'0000'0000,0x0000'0000'0000'0000,0x0000'0000'0000'0000,test);分配给变量ymm的值是出于某些奇怪的原因:ymm.m256i_i64[0]=0xffff'ffff'ffff'ffffymm.m2

amp Intrinsics 0000 39 code c++visual-studio avx compiler-bug

c++ - 使用 SSE/AVX 内在函数的快速点积

我正在寻找一种快速方法来计算具有3或4个分量的vector的点积。我尝试了几件事，但大多数在线示例都使用float组，而我们的数据结构不同。我们使用16字节对齐的结构。代码摘录(简化):structfloat3{floatx,y,z,w;//4thcomponentunusedhere}structfloat4{floatx,y,z,w;}在之前的测试中(使用SSE4内在点积或FMA)，与使用以下常规C++代码相比，我无法获得加速。floatdot(constfloat3a,constfloat3b){returna.x*b.x+a.y*b.y+a.z*b.z;}测试是在IntelIv

内在 amp float float4 code c++gcc clang simd

c++ - SSE/AVX 寄存器的非零字节索引

如果SSE/AVX寄存器的值使其所有字节都为0或1，是否有任何方法可以有效地获取所有非零元素的索引？例如，如果xmm值为|r0=0|r1=1|r2=0|r3=1|r4=0|r5=1|r6=0|...|r14=0|r15=1|结果应该类似于(1,3,5,...,15)。结果应放在另一个_m128i变量或char[16]数组中。如果有帮助，我们可以假设寄存器的值是所有字节都是0或某个常量非零值(不一定是1)。我很想知道是否有针对该指令的指令，或者最好是C/C++内在指令。在任何SSE或AVX指令集中。编辑1:它是正确的observedby@zx485那个最初的问题还不够清楚。我一直在寻找任

零字寄存 000 blockquote code c++c sse simd avx

c++ - AVX 中的矩阵向量乘法并不按比例比 SSE 中快

我正在使用以下代码在SSE和AVX中编写矩阵vector乘法:for(size_ti=0;i我对AVX使用了类似的方法，但是最后，由于AVX没有与_mm_store_ss()等效的指令，我使用了:_mm_store_ss(&C[i],_mm256_castps256_ps128(sum));SSE代码比串行代码提速3.7。然而，AVX代码只比串行代码快了4.3。我知道将SSE与AVX一起使用会导致问题，但我使用g++使用-mavx'标志编译它，这应该会删除SSE操作码。我也可以使用:_mm256_storeu_ps(&C[i],sum)来做同样的事情，但加速是一样的。关于我还可以做些什

amp 43 code section 平铺 c++vectorization sse matrix-multiplication avx

c++ - 英特尔 AVX 内在函数 : any compatibility library out?

是否有任何英特尔AVX内部函数库？我正在寻找类似于“sse2mmx.h”header的东西，如果SSE2整数内在函数在编译时不可用，它会回退到MMX内在函数。因此，如果我有类似的AVX库，我可以为新硬件编写优化代码，在AVX扩展不可用的情况下，它几乎可以达到最佳速度。谷歌搜索到目前为止没有多大帮助:( 最佳答案英特尔提供了一个AVXemulationheader.我没有尝试过，但引用了链接的文章“AVX仿真头文件使用内部函数来扩展IntelSSE4.2之前的Intel指令集。您的开发环境和硬件需要SSE4.2支持，以便使用AVX仿

英特 compatibility section AVX c++c intrinsics

c++ - 使用 C/C++ 在同一可执行文件中进行不同的优化(普通、SSE、AVX)

我正在为我的3D计算开发优化，我现在有:使用标准C语言库的“plain”版本，SSE优化版本，使用预处理器编译#defineUSE_SSE，AVX优化版本，使用预处理器编译#defineUSE_AVX是否可以在3个版本之间切换而不必编译不同的可执行文件(例如，具有不同的库文件并动态加载“正确”的库文件，不知道inline函数是否“对”)？我还会考虑在软件中使用这种开关的性能。最佳答案对此有多种解决方案。一个基于C++，您可以在其中创建多个类-通常，您实现一个接口(interface)类，并使用工厂函数为您提供正确类的对象。例如c

中进 amp Matrix code section c++c compiler-construction sse avx

具有重载成员函数的 C++ std::mem_fn

编译以下代码时，VisualStudio报告:\main.cpp(21):errorC2664:'std::_Call_wrapper,false>std::mem_fn(intClassA::*const)':cannotconvertargument1from'overloaded-function'to'intClassA::*const'1>with1>[1>_Arg0=ClassA1>]1>Contextdoesnotallowfordisambiguationofoverloadedfunction为什么编译器在创建mem_fptr1时会感到困惑？但是当我指定类型时，一些m

amp mem_fn code ClassA memberfunction c++c++11 function-pointers