xmm1_草庐IT

c++ - 为什么gcc/clang要用两个128bit的xmm寄存器来传递一个值？

所以我偶然发现了一些我想了解的东西，因为它让我头疼。我有以下代码:#include#includetypedefunion{struct{floatx,y,z,w;}v;__m128m;}vec;vec__attribute__((noinline))square(veca){vecx={.m=_mm_mul_ps(a.m,a.m)};returnx;}intmain(intargc,char*argv[]){floatf=4.9;veca=(vec){f,f,f,f};vecres=square(a);//?printf("%f%f%f%f\n",res.v.x,res.v.y,re

寄存 amp code section c++c assembly clang sse

windows - 为什么 Windows x64 调用约定不使用 XMM 寄存器来传递超过 4 个整数参数？

(微软)x64callingconvention状态:TheargumentsarepassedinregistersRCX,RDX,R8,andR9.Iftheargumentsarefloat/double,theyarepassedinXMM0L,XMM1L,XMM2L,andXMM3L.这很好，但为什么只是float/加倍？为什么整数(可能还有指针)不也通过XMM寄存器传递？似乎有点浪费可用空间，不是吗？最佳答案因为大多数对非FP值(即整数和地址)的操作都设计为使用通用寄存器。有整数SSE运算，但它们只是算术运算。因此，

寄存传递 section XMM windows assembly x86-64 sse calling-convention

windows - 为什么 Windows 64 选择要求保存/恢复 xmm6 和 xmm7？

为什么Windows64选择要求保存/恢复xmm6和xmm7？在Windows32中，您可以编写破坏xmm0...xmm7的汇编例程。但是如果你采用相同的汇编代码并在Windows64中运行它，它通常会导致应用程序错误，因为VS2007在xmm6和xmm7中存储double值。在我看来，既然X64有16个xmm寄存器xmm0...xmm15(而X32只有8个xmm寄存器)，那么微软本可以选择允许用户破坏xmm0..xmm7(以便他们可以重用程序集来自Win32的例程而无需考虑)但要求用户保存/恢复xmm8...xmm15。那么，为了满足我自己的好奇心，为什么Windows64选择要求保

xmm windows section win64 cpu-registers

c++ - 如何使用来自另一个 XMM 寄存器条目的 4 个相同 float 填充 x86 XMM 寄存器？

我正在尝试实现一些内联汇编器(在C/C++代码中)以利用SSE。我想将值(从XMM寄存器或内存)复制并复制到另一个XMM寄存器。例如，假设我在内存中有一些值{1,2,3,4}。我想复制这些值，使xmm1填充{1,1,1,1}，xmm2填充{2,2,2,2}，依此类推。查看英特尔引用手册，我找不到执行此操作的说明。我只需要结合使用重复的MOVSS和旋转(通过PSHUFD吗？)？最佳答案有两种方式:仅使用shufps:__m128first=...;__m128xxxx=_mm_shuffle_ps(first,first,0x00

寄存条目 first section code c++c x86 inline-assembly sse

c++ - 如何使用来自另一个 XMM 寄存器条目的 4 个相同 float 填充 x86 XMM 寄存器？

我正在尝试实现一些内联汇编器(在C/C++代码中)以利用SSE。我想将值(从XMM寄存器或内存)复制并复制到另一个XMM寄存器。例如，假设我在内存中有一些值{1,2,3,4}。我想复制这些值，使xmm1填充{1,1,1,1}，xmm2填充{2,2,2,2}，依此类推。查看英特尔引用手册，我找不到执行此操作的说明。我只需要结合使用重复的MOVSS和旋转(通过PSHUFD吗？)？最佳答案有两种方式:仅使用shufps:__m128first=...;__m128xxxx=_mm_shuffle_ps(first,first,0x00

寄存条目 first section code c++c x86 inline-assembly sse

c++ - 有没有办法利用所有 XMM 寄存器？

这是一个代码片段，用于计算从中获取的float组中的值的平方根http://felix.abecassis.me/2011/09/cpp-getting-started-with-sse/voidsse(float*a,intN){//WeassumeN%4==0.intnb_iters=N/4;__m128*ptr=(__m128*)a;for(inti=0;i当我分解这段代码时，我看到只使用了一个xmm(xmm0)。我假设展开循环会给编译器一个可以使用更多xmm的提示。我将代码修改为voidsse3(float*a,intN){__m128*ptr=(__m128*)a;for(i

寄存 amp mm_store_ps mm_sqrt_ps ssetest c++c compiler-construction sse

c - 从 xmm 寄存器中提取数据到 'standard' 变量，内在

如何从xmm寄存器中提取2个字节或任意数量的字节？目前我正在使用一个数组来转储整个寄存器，然后访问我想要的字节。然而，这似乎没有它应该的那么有效。有没有一种方法可以有效地只获取我感兴趣的字节？(我在Linux64位上使用C语言工作) 最佳答案您可能需要的指令的助记符是MOVD和MOVQ，相应的内在函数是_mm_cvtsi128_si32和_mm_cvtsi128_si64. 关于c-从xmm寄存器中提取数据到'standard'变量，内在，我们在StackOverflow上找到一个类似

寄存内在 section code c linux x86-64 sse