草庐IT

c++ - 在 x64 上获取没有 __asm 的 SSE 版本

我正在尝试构建VS2010CRT库的某些函数的略微修改版本,除了它尝试访问可能包含指令集体系结构版本(ISA)的全局变量的部分外,一切都很好:if(__isa_available>__ISA_AVAILABLE_SSE2){//...}elseif(__isa_available==__ISA_AVAILABLE_SSE2){//...}我在程序集文件中找到它应该包含的值__ISA_AVAILABLE_X86equ0__ISA_AVAILABLE_SSE2equ1__ISA_AVAILABLE_SSE42equ2__ISA_AVAILABLE_AVXequ3如何以及在哪里为__isa_

c++ - SIMD 和动态内存分配

这个问题在这里已经有了答案:关闭10年前。PossibleDuplicate:SSE,intrinsics,andalignment我是SIMD编程的新手,如果我问的是一个明显的问题,请原谅。我进行了一些试验,最终我想将SIMD值存储在动态分配的结构中。代码如下:structSimdTest{__m128m_simdVal;voidsetZero(){__m128tmp=_mm_setzero_ps();m_simdVal=tmp;//setZero();deletetest;}执行带有CRASH注释的方法时,代码崩溃,异常如​​下:Unhandledexceptionat0x7753

c++ - 关于整数和浮点性能的 SSE4 和 SSE2 - 哪个更快?

虽然您通常在CPU上获得比浮点性能更好的整数算术性能,但有人可以澄清SIMD版本的情况。例如:__m128i_mm_mul_epi32(__m128ia,__m128ib);//(multiplies2integervectors)对比:__m128_mm_mul_ps(__m128a,__m128b);//(multiplies2floatvectors)哪个会产生更高的性能?(假设机器具有SSE4功能)。我这么说是因为我根据SSE2指令编写了我自己的小数学库,我不知道我是否应该继续使用__m128i. 最佳答案 让我展示一下我回

c++ - SSE版本的modf

我有以下使用SSE内在函数的modf的工作实现,但是当我需要结果时转换为__m128i并返回过程似乎很浪费作为__m128。__m128integer=_mm_cvtepi32_ps(_mm_cvttps_epi32(value));__m128fraction=_mm_sub_ps(value,integer);是否存在不进行类型转换或一些魔术数字破解的截断指令? 最佳答案 通过SSE4.1,您可以使用roundpsandroundpd说明://SinglePrecision__m128integer=_mm_round_ps(v

c++ - C++ 中 SSE 的内存对齐,_aligned_malloc 等效?

我想知道如何将此C代码转换为C++以实现内存对齐。float*pResult=(float*)_aligned_malloc(length*sizeof(float),16);我看过here然后我试了这个float*pResult=(float*)__attribute__((aligned(16)));还有这个float*pResult=__attribute__((aligned(16)));但两者都给出了类似的错误。error:expectedprimary-expressionbefore'__attribute__'|error:expected','or';'before'

c++ - 使用 AVX 指令实现 _mm256_permutevar8x32_ps

AVX2内在_mm256_permutevar8x32_ps可以跨channel执行洗牌,这对于长度为8的数组排序非常有用。现在我只有AVX(IvyBridge)并且想在最少的周期内做同样的事情。请注意,数据和索引都是输入的,并且在编译时是未知的。例如,数组是[1,2,3,4,5,6,7,8],索引是[3,0,1,7,6,5,2,4],输出应该是[4,1,2,8,7,6,3,5]。大多数方便的内部函数的控制掩码必须是常量(没有“var”后缀),因此不适合这种情况。提前致谢。 最佳答案 要在AVX中跨channel置换,您可以在cha

c++ - AVX2 赢家通吃差异搜索

我正在使用AVX2优化视差估计算法的“赢家通吃”部分。我的标量例程是准确的,但在QVGA分辨率和48个视差下,我的笔记本电脑上的运行时间慢得令人失望,大约为14毫秒。我创建了LR和RL视差图像,但为了简单起见,我将只包含RL搜索的代码。我的标量例程:intMAXCOST=32000;for(inti=maskRadius;i我尝试使用AVX2:intMAXCOST=32000;int*dispVals=(int*)_mm_malloc(sizeof(int32_t)*16,32);for(inti=maskRadius;i视差空间图像(DSI)的大小为HxWxD(320x240x48)

c++ - 使用 SIMD AVX 计算两个排序数组的对称差异的大小

我正在寻找一种方法来优化我正在研究的算法。它是最重复的,因此计算密集型部分是比较两个任意大小的排序数组,包含唯一的无符号整数(uint32_t)值以获得它们的对称差的大小(元素的数量仅存在于其中一个vector中)。将部署该算法的目标机器使用支持AVX2的英特尔处理器,因此我正在寻找一种使用SIMD就地执行它的方法。有没有办法利用AVX2指令来获取两个已排序的无符号整数数组的对称差的大小? 最佳答案 由于两个数组都已排序,因此使用SIMD(AVX2)实现此算法应该相当容易。您只需要同时遍历两个数组,然后当比较两个8整数vector时

c++ - 如何向量化 pow 函数(带负数)?

我正在尝试矢量化(SSE/AVX)pow函数。在我发现的所有实现中,它只是使用log和exp进行矢量化:pow(x,y)=exp(y*log(x))它适用于正x,但不适用于负x,因为负数的对数是一个复数。是否有可能在保持处理负数x的能力的同时有效地矢量化pow? 最佳答案 这是一个通用的答案,没有利用您实际如何矢量化pow()的任何细节。您可以检查基vector的任何元素是否为负,并在其上分支以在快路径和慢路径之间进行选择。返回实部和虚部的两个vector,因此快速路径可以为虚部返回_mm_setzero_ps()。不需要虚部的调用

c++ - 加快一些 SSE2 Intrinsics 的颜色转换

我正在尝试执行从YCbCr到BGRA的图像颜色转换(不要问A位,好头疼)。无论如何,这需要尽可能快地执行,所以我使用编译器内部函数编写它以利用SSE2。这是我第一次涉足SIMD领域,我基本上是一个初学者,所以我确信我做的很多事情都是低效的。事实证明,我执行实际颜色转换的算术代码特别慢,Intel的VTune显示它是一个重大瓶颈。那么,有什么方法可以加快以下代码的速度吗?它以32位、一次4个像素完成。我最初尝试以8位、一次16个像素(如上循环)进行计算,但计算导致整数溢出和转换中断。整个过程,包括Inteljpeg解码,对于全高清的单场大约需要14毫秒。如果我能将它降低到至少12毫秒,最