SSE

c++ - 什么可能导致相同的 SSE 代码在相同的函数中运行速度慢几倍？

编辑3:图片是全尺寸版本的链接。对于文字图片，我们深表歉意，但这些图表很难复制/粘贴到文本表格中。对于使用icc--std=c++14-qopenmp-axS-O3-fPIC编译的程序，我有以下VTune配置文件:在该配置文件中，两个指令集在汇编View中突出显示。尽管指令相同且顺序相同，但上部集群比下部集群花费的时间要少得多。两个集群都位于同一个函数内，显然都被调用了n次。每次我在我现在使用的WestmereXeon和Haswell笔记本电脑上运行分析器时都会发生这种情况(使用SSE编译，因为这是我现在的目标和学习目标)。我错过了什么？忽略较差的并发性，这很可能是由于笔记本电脑节流造

中运 amp code 的 noreferrer c++optimization intel sse intel-vtune

c++ - 向量化 (SIMD) 树操作

关于向量化树操作的一些一般提示/指针是什么？内存布局明智，算法明智等。一些领域特定的东西:每个父节点将有相当多(20-200)个子节点。每个节点都有很低的概率有子节点。树上的操作主要是条件遍历。遍历树的性能比插入/删除/搜索速度更重要。最佳答案请注意，这很难实现。去年，一个由英特尔、甲骨文和UCSC组成的团队提出了一个惊人的解决方案"FAST:FastArchitectureSensitiveTreeSearchonModernCPUsandGPUs".他们赢得了"BestPaperAward2010"byACMSIGMOD.

amp 43 section noreferrer noopener c++sse simd vectorization

c++ - SSE 优化的 64 位整数模拟

对于我正在从事的业余项目，我需要在x86CPU上模拟某些64位整数运算，并且它需要快速。目前，我正在通过MMX指令执行此操作，但这真的很麻烦，因为我必须一直刷新fp寄存器状态(并且因为大多数MMX指令处理已签名整数，我需要无符号行为)。所以我想知道SO上的SSE/优化专家是否可以使用SSE提出更好的实现。我需要的操作如下(非常具体):uint64_tX,Y;X=0;X=1;XY;具体来说，我不需要通用的加法或移位，比如只加一个，左移一个。真的，只是此处显示的精确操作。当然，在x86上除外，uint64_t通过使用两个32位标量来模拟，这很慢(而且，在我的例子中，根本不起作用，因为我需要

amp 43 code 128 strong c++optimization x86 64-bit sse

c++ - SSE 比 FPU 慢？

我有一大段代码，其中一部分包含这段代码:result=(nx*m_Lx+ny*m_Ly+m_Lz)/sqrt(nx*nx+ny*ny+1);我已经对其进行了如下矢量化处理(一切都已经是一个float):__m128r=_mm_mul_ps(_mm_set_ps(ny,nx,ny,nx),_mm_set_ps(ny,nx,m_Ly,m_Lx));__declspec(align(16))intasInt[4]={_mm_extract_ps(r,0),_mm_extract_ps(r,1),_mm_extract_ps(r,2),_mm_extract_ps(r,3)};float(&r

amp 43 code 矢量化 section c++optimization sse vectorization simd

c++ - 从 64 位无符号整数初始化 __m128 类型

_mm_set_epi64和类似的*_epi64指令似乎使用并依赖于__m64类型。我想初始化一个__m128类型的变量，使其高64位为0，低64位设为x，其中x是uint64_t类型(或类似的无符号64位类型)。这样做的“正确”方法是什么？最好，这应该以独立于编译器的方式完成。最佳答案回答有关如何将64位值加载到XMM寄存器的低64位同时将高64位清零的问题_mm_loadl_epi64(&x)willdoexactlywhatyouwant.关于_mm_set_epi64我曾说过，查看AgnerFog的源代码VectorCl

amp 43 code 64 section c++sse intrinsics

c++ - 是否有用于 x86 的良好 double 小型矩阵 SIMD 库？

我正在寻找专注于图形的小型(4x4)矩阵运算的SIMD库。那里有很多单精度的，但我需要同时支持单精度和double。我看过Intel的IPPMX库，但我更喜欢有源代码的东西。我对这些特定操作的SSE3+实现非常感兴趣:Mat4*Mat4Mat4*Vec4Mat4*Mat4数组Mat4*Vec4数组Mat4反演(很高兴)编辑:请不要回答“过早优化”。任何使用过小矩阵的人都知道GCC不会像手动优化内在函数或ASM那样对这些进行矢量化。在这种情况下，这很重要，否则我不会问。最佳答案也许是Eigen图书馆？它支持SSE2/3/4、ARM

amp 小型 section Mat4 单精度 c++sse simd matrix-multiplication

c++ - SSE2 : Double precision log function

我需要日志功能的开源(无许可证限制)实现，有签名的东西__m128d_mm_log_pd(__m128d);它在英特尔短vector数学库(ICC的一部分)中可用，但ICC既不是免费的也不是开源的。我正在寻找仅使用内部函数的实现。它应该使用特殊的有理函数逼近。我需要一些几乎与cmath日志一样准确的东西，比如9-10位十进制数字，但速度更快。最佳答案我相信log2更容易计算。您可以将您的数字乘以/除以2的幂(非常快)，使其位于(0.5,2]，然后您使用Padeapproximant(取M接近N)，这很容易一次又一次地得出all，

amp precision section code 除以 c++c optimization sse simd

c++ - 检查 XMM 寄存器是否全为零

有没有办法检查__m128i变量中的所有位/字节/字等是否为0？在我的应用程序中，我必须检查__m128i变量中的所有整数是否都为零。我是否必须提取它们并分别进行比较？编辑:我现在做的是:intnext=0;do{//somecodenext=idata.m128i_i32[0]+idata.m128i_i32[1]+idata.m128i_i32[2]+idata.m128i_i32[3];}while(next>0);我需要的是检查idata是否全为零，而不必访问每个单独的元素，如果是则退出循环...根据Harold的评论，这是解决方案:__m128iidata=_mm_setr_

寄存 amp code section idata c++sse simd intrinsics

c++ - 检查所有 __m128i 组件是否为 0 的最有效方法 [使用 <= SSE4.1 内在函数]

我正在使用SSE内在函数来确定矩形(由四个int32值定义)是否已更改:__m128ioldRect;//containsoldleft,top,right,bottompackedto128bits__m128inewRect;//containsnewleft,top,right,bottompackedto128bits__m128ixor=_mm_xor_si128(oldRect,newRect);此时，如果矩形未更改，生成的xor值将全为零。那么确定这一点的最有效方法是什么？目前我正在这样做:if(xor.m128i_u64[0]|xor.m128i_u64[1]){//r

amp 内在 code section 128 c++integer sse simd intrinsics

c++ - 使用 SSE 计算无符号整数之间的绝对差

在C中是否有一种无分支技术来计算两个无符号整数之间的绝对差？例如给定变量a和b，对于a=3、b=5或b=3、a=5的情况，我希望值为2。理想情况下，我还希望能够使用SSE寄存器对计算进行矢量化。最佳答案有几种方法可以做到，我只提一种:SSE4使用PMINUD和PMAXUD将寄存器#1中的较大值与寄存器#2中的较小值分开。减去它们。MMX/SSE2翻转两个值的符号位，因为下一条指令只接受有符号整数比较。PCMPGTD。使用此结果作为mask。计算(a-b)和(b-a)的结果使用POR(PAND(mask,a-b),PANDN(ma

amp 绝对 code section 寄存 c++unsigned sse

14 15 161718 19 20