SSE

c++ - 在 x64 上获取没有 __asm 的 SSE 版本

我正在尝试构建VS2010CRT库的某些函数的略微修改版本，除了它尝试访问可能包含指令集体系结构版本(ISA)的全局变量的部分外，一切都很好:if(__isa_available>__ISA_AVAILABLE_SSE2){//...}elseif(__isa_available==__ISA_AVAILABLE_SSE2){//...}我在程序集文件中找到它应该包含的值__ISA_AVAILABLE_X86equ0__ISA_AVAILABLE_SSE2equ1__ISA_AVAILABLE_SSE42equ2__ISA_AVAILABLE_AVXequ3如何以及在哪里为__isa_

amp 43 section code AVAILABLE c++visual-studio-2010 assembly sse

c++ - SIMD 和动态内存分配

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:SSE,intrinsics,andalignment我是SIMD编程的新手，如果我问的是一个明显的问题，请原谅。我进行了一些试验，最终我想将SIMD值存储在动态分配的结构中。代码如下:structSimdTest{__m128m_simdVal;voidsetZero(){__m128tmp=_mm_setzero_ps();m_simdVal=tmp;//setZero();deletetest;}执行带有CRASH注释的方法时，代码崩溃，异常如下:Unhandledexceptionat0x7753

amp 43 section SimdTest notice c++memory-management sse simd

c++ - 关于整数和浮点性能的 SSE4 和 SSE2 - 哪个更快？

虽然您通常在CPU上获得比浮点性能更好的整数算术性能，但有人可以澄清SIMD版本的情况。例如:__m128i_mm_mul_epi32(__m128ia,__m128ib);//(multiplies2integervectors)对比:__m128_mm_mul_ps(__m128a,__m128b);//(multiplies2floatvectors)哪个会产生更高的性能？(假设机器具有SSE4功能)。我这么说是因为我根据SSE2指令编写了我自己的小数学库，我不知道我是否应该继续使用__m128i. 最佳答案让我展示一下我回

amp SSE code 吞吐 section c++cpu simd

c++ - SSE版本的modf

我有以下使用SSE内在函数的modf的工作实现，但是当我需要结果时转换为__m128i并返回过程似乎很浪费作为__m128。__m128integer=_mm_cvtepi32_ps(_mm_cvttps_epi32(value));__m128fraction=_mm_sub_ps(value,integer);是否存在不进行类型转换或一些魔术数字破解的截断指令？最佳答案通过SSE4.1，您可以使用roundpsandroundpd说明://SinglePrecision__m128integer=_mm_round_ps(v

amp 43 code integer value c++visual-c++sse simd

c++ - C++ 中 SSE 的内存对齐，_aligned_malloc 等效？

我想知道如何将此C代码转换为C++以实现内存对齐。float*pResult=(float*)_aligned_malloc(length*sizeof(float),16);我看过here然后我试了这个float*pResult=(float*)__attribute__((aligned(16)));还有这个float*pResult=__attribute__((aligned(16)));但两者都给出了类似的错误。error:expectedprimary-expressionbefore'__attribute__'|error:expected','or';'before'

amp 等效 float aligned code c++g++malloc sse memory-alignment

c++ - 使用 AVX 指令实现 _mm256_permutevar8x32_ps

AVX2内在_mm256_permutevar8x32_ps可以跨channel执行洗牌，这对于长度为8的数组排序非常有用。现在我只有AVX(IvyBridge)并且想在最少的周期内做同样的事情。请注意，数据和索引都是输入的，并且在编译时是未知的。例如，数组是[1,2,3,4,5,6,7,8]，索引是[3,0,1,7,6,5,2,4]，输出应该是[4,1,2,8,7,6,3,5]。大多数方便的内部函数的控制掩码必须是常量(没有“var”后缀)，因此不适合这种情况。提前致谢。最佳答案要在AVX中跨channel置换，您可以在cha

permutevar8x permutevar8 256 code index c++sse simd avx

c++ - AVX2 赢家通吃差异搜索

我正在使用AVX2优化视差估计算法的“赢家通吃”部分。我的标量例程是准确的，但在QVGA分辨率和48个视差下，我的笔记本电脑上的运行时间慢得令人失望，大约为14毫秒。我创建了LR和RL视差图像，但为了简单起见，我将只包含RL搜索的代码。我的标量例程:intMAXCOST=32000;for(inti=maskRadius;i我尝试使用AVX2:intMAXCOST=32000;int*dispVals=(int*)_mm_malloc(sizeof(int32_t)*16,32);for(inti=maskRadius;i视差空间图像(DSI)的大小为HxWxD(320x240x48)

通吃 amp 256 cstep br c++sse avx disparity-mapping avx2

c++ - 使用 SIMD AVX 计算两个排序数组的对称差异的大小

我正在寻找一种方法来优化我正在研究的算法。它是最重复的，因此计算密集型部分是比较两个任意大小的排序数组，包含唯一的无符号整数(uint32_t)值以获得它们的对称差的大小(元素的数量仅存在于其中一个vector中)。将部署该算法的目标机器使用支持AVX2的英特尔处理器，因此我正在寻找一种使用SIMD就地执行它的方法。有没有办法利用AVX2指令来获取两个已排序的无符号整数数组的对称差的大小？最佳答案由于两个数组都已排序，因此使用SIMD(AVX2)实现此算法应该相当容易。您只需要同时遍历两个数组，然后当比较两个8整数vector时

amp 43 section 的时出 c++algorithm sse simd avx

c++ - 如何向量化 pow 函数(带负数)？

我正在尝试矢量化(SSE/AVX)pow函数。在我发现的所有实现中，它只是使用log和exp进行矢量化:pow(x,y)=exp(y*log(x))它适用于正x，但不适用于负x，因为负数的对数是一个复数。是否有可能在保持处理负数x的能力的同时有效地矢量化pow？最佳答案这是一个通用的答案，没有利用您实际如何矢量化pow()的任何细节。您可以检查基vector的任何元素是否为负，并在其上分支以在快路径和慢路径之间进行选择。返回实部和虚部的两个vector，因此快速路径可以为虚部返回_mm_setzero_ps()。不需要虚部的调用

amp 43 code 矢量化 imag_result c++c sse avx pow

c++ - 加快一些 SSE2 Intrinsics 的颜色转换

我正在尝试执行从YCbCr到BGRA的图像颜色转换(不要问A位，好头疼)。无论如何，这需要尽可能快地执行，所以我使用编译器内部函数编写它以利用SSE2。这是我第一次涉足SIMD领域，我基本上是一个初学者，所以我确信我做的很多事情都是低效的。事实证明，我执行实际颜色转换的算术代码特别慢，Intel的VTune显示它是一个重大瓶颈。那么，有什么方法可以加快以下代码的速度吗？它以32位、一次4个像素完成。我最初尝试以8位、一次16个像素(如上循环)进行计算，但计算导致整数溢出和转换中断。整个过程，包括Inteljpeg解码，对于全高清的单场大约需要14毫秒。如果我能将它降低到至少12毫秒，最

Intrinsics amp 128 epi pSrc8u c++colors simd yuv sse2

2 3 456 7 8