sse

c++ - 使用 SSE/AVX 内在函数的快速点积

我正在寻找一种快速方法来计算具有3或4个分量的vector的点积。我尝试了几件事，但大多数在线示例都使用float组，而我们的数据结构不同。我们使用16字节对齐的结构。代码摘录(简化):structfloat3{floatx,y,z,w;//4thcomponentunusedhere}structfloat4{floatx,y,z,w;}在之前的测试中(使用SSE4内在点积或FMA)，与使用以下常规C++代码相比，我无法获得加速。floatdot(constfloat3a,constfloat3b){returna.x*b.x+a.y*b.y+a.z*b.z;}测试是在IntelIv

内在 amp float float4 code c++gcc clang simd

c++ - SSE 双线性插值

我在一个紧密的循环中实现双线性插值并尝试使用SSE对其进行优化，但我从中得到的加速为零。这是代码，非SIMD版本使用一个简单的vector结构，可以定义为structVec3f{floatx,y,z;实现了乘法和加法运算符:#ifdefUSE_SIMDconstColorc11=pixelCache[y1*size.x+x1];constColorc12=pixelCache[y2*size.x+x1];constColorc22=pixelCache[y2*size.x+x2];constColorc21=pixelCache[y1*size.x+x2];__declspec(ali

双线 amp const uint float c++assembly graphics sse

c++ - SSE/AVX 寄存器的非零字节索引

如果SSE/AVX寄存器的值使其所有字节都为0或1，是否有任何方法可以有效地获取所有非零元素的索引？例如，如果xmm值为|r0=0|r1=1|r2=0|r3=1|r4=0|r5=1|r6=0|...|r14=0|r15=1|结果应该类似于(1,3,5,...,15)。结果应放在另一个_m128i变量或char[16]数组中。如果有帮助，我们可以假设寄存器的值是所有字节都是0或某个常量非零值(不一定是1)。我很想知道是否有针对该指令的指令，或者最好是C/C++内在指令。在任何SSE或AVX指令集中。编辑1:它是正确的observedby@zx485那个最初的问题还不够清楚。我一直在寻找任

零字寄存 000 blockquote code c++c sse simd avx

c++ - AVX 中的矩阵向量乘法并不按比例比 SSE 中快

我正在使用以下代码在SSE和AVX中编写矩阵vector乘法:for(size_ti=0;i我对AVX使用了类似的方法，但是最后，由于AVX没有与_mm_store_ss()等效的指令，我使用了:_mm_store_ss(&C[i],_mm256_castps256_ps128(sum));SSE代码比串行代码提速3.7。然而，AVX代码只比串行代码快了4.3。我知道将SSE与AVX一起使用会导致问题，但我使用g++使用-mavx'标志编译它，这应该会删除SSE操作码。我也可以使用:_mm256_storeu_ps(&C[i],sum)来做同样的事情，但加速是一样的。关于我还可以做些什

amp 43 code section 平铺 c++vectorization sse matrix-multiplication avx

c# - 在托管代码中调用 SSE 代码(对齐)

这是我的问题:我们有一个用C++编写的数学库，它大量使用SSE。我们需要在我们的工具(用C#编写)的托管层中使用相同的数学库。问题是，数学库类必须是16字节对齐的(SSE才能工作)。但是，在编译托管代码时，我遇到了很多错误，因为不支持“__declspec(align(X))”。知道这是否可能吗？我找不到任何有用的信息。一些附加信息:用C++编写的数学库使用SSE来实现最佳性能。然而，我们的工具不需要最高性能，与一般C#代码相比，我们甚至可以承受性能损失。它更多的是能够实际执行我们所有的代码(这是一个巨大的代码库)，而无需人们在数据类型之间来回转换。所以这实际上只与可用性有关，与性能无

c#SSE section C++c++alignment managed

c++ - SSE 和 iostream : wrong output for floating point types

测试.cpp:#includeusingnamespacestd;intmain(){doublepi=3.14;cout当使用g++-mno-ssetest.cpp在cygwin64位上编译时，输出为:pi:0但是，如果使用g++test.cpp编译，它可以正常工作。.我有GCC版本5.4.0。最佳答案是的，我复制了这个。嗯，主要是。我实际上没有得到0的输出，而是一些其他的垃圾输出。所以我可以重现无效的行为，并且我已经查明了原因。您可以看到GCC5.4.0使用-m64-mno-sse标志hereonGoldbolt'sComp

amp iostream code 39 寄存 c++floating-point x86-64 sse libstdc++

c++ - SSE 内在函数导致正常的浮点运算返回 -1.#INV

我在编写执行音频处理的SSE方法时遇到问题。我在这里根据英特尔的论文实现了一个SSE随机函数:http://software.intel.com/en-us/articles/fast-random-number-generator-on-the-intel-pentiumr-4-processor/我还有一个方法也使用SSE执行从Float到S16的转换，转换执行起来非常简单，如下所示:unsignedintFloat_S16LE(float*data,constunsignedintsamples,uint8_t*dest){int16_t*dst=(int16_t*)dest;c

内在 amp code section float c++sse intrinsics

c++ - SSE3 内在函数 : How to find the maximum of a large array of floats

我有以下代码来查找最大值intlength=2000;float*data;//dataisallocatedandinitializedfloatmax=0.0;for(inti=0;imax){max=data;}}我尝试使用SSE3内在函数对其进行矢量化，但我对应该如何进行比较感到有些吃惊。intlength=2000;float*data;//dataisallocatedandinitializedfloatmax=0.0;//fortimebeingjustassumethatlengthisalwaysmod4for(inti=0;i谁能给出一些想法。

内在 amp code max section c++sse intrinsics

c++ - 使用 C/C++ 在同一可执行文件中进行不同的优化(普通、SSE、AVX)

我正在为我的3D计算开发优化，我现在有:使用标准C语言库的“plain”版本，SSE优化版本，使用预处理器编译#defineUSE_SSE，AVX优化版本，使用预处理器编译#defineUSE_AVX是否可以在3个版本之间切换而不必编译不同的可执行文件(例如，具有不同的库文件并动态加载“正确”的库文件，不知道inline函数是否“对”)？我还会考虑在软件中使用这种开关的性能。最佳答案对此有多种解决方案。一个基于C++，您可以在其中创建多个类-通常，您实现一个接口(interface)类，并使用工厂函数为您提供正确类的对象。例如c

中进 amp Matrix code section c++c compiler-construction sse avx

c++ - 如何在不使用任何 SSE 指令的情况下设置 __m128i？

我有很多函数使用相同的常量__m128i值。例如:const__m128iK8=_mm_setr_epi8(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16);const__m128iK16=_mm_setr_epi16(1,2,3,4,5,6,7,8);const__m128iK32=_mm_setr_epi32(1,2,3,4);所以我想将所有这些常量存储在一个地方。但是有一个问题:我在运行时检查现有的CPU扩展。如果CPU不支持例如SSE(或AVX)，那么在常量初始化期间程序将崩溃。那么是否可以在不使用SSE的情况下初始化这些常量？

何在 amp CHAR LONGLONG AS c++constants sse simd sse2

27 28 293031 32 33