rax_草庐IT

c - 将值从 C 程序传递到汇编语言

我想使用链接程序集方法而不是C中的内联程序集方法将值从C程序传递到程序集。下面是正在开发的汇编程序(GCD)。;gcdasm.nasmbits64section.textglobalgcdasmgcdasm:pushrbpmovrbp,rspmovrax,[rbp+4];loadraxwithxmovrbx,[rbp+8];loadrbxwithytop:cmprax,rbx;x(rax)hastobelargerthany(rbx)jeexit;ifx=ythenexitandreturnvalueyjbxchange;ifx这是我尝试将值传递给汇编程序的C程序//gcd.c#inc

传递将值 code gcdasm rax c linux assembly nasm x86-64

linux - 如何在 Linux 上使用 gcc 程序集在 x86-64 中设置控制寄存器 0 (cr0) 位

我正在使用以下代码设置cr0位以禁用缓存。当我编译这个时#includeintmain(){__asm__("pushl%eax\n\t""mov%cr0,%eax;\n\t""orl$(1我收到错误消息，指出操作数对mov无效。任何人都可以给我指一个好的gccx86-64指南来做这些事情吗？另外上面的代码到底有什么问题？最佳答案好吧，最后我写了下面的内核模块。我不确定它是否正确，因为我没有观察到禁用缓存时应该伴随的急剧减速。但这可以正确编译和插入。任何指示都会有所帮助。谢谢!#include#includeMODULE_LIC

中设寄存 34 section rax linux gcc x86-64 inline-assembly

linux - 如何在 Linux 上使用 gcc 程序集在 x86-64 中设置控制寄存器 0 (cr0) 位

我正在使用以下代码设置cr0位以禁用缓存。当我编译这个时#includeintmain(){__asm__("pushl%eax\n\t""mov%cr0,%eax;\n\t""orl$(1我收到错误消息，指出操作数对mov无效。任何人都可以给我指一个好的gccx86-64指南来做这些事情吗？另外上面的代码到底有什么问题？最佳答案好吧，最后我写了下面的内核模块。我不确定它是否正确，因为我没有观察到禁用缓存时应该伴随的急剧减速。但这可以正确编译和插入。任何指示都会有所帮助。谢谢!#include#includeMODULE_LIC

中设寄存 34 section rax linux gcc x86-64 inline-assembly

linux - "mov rax, QWORD PTR fs:0x28"汇编指令有什么作用？

这个问题在这里已经有了答案:Whydoesthismemoryaddress%fs:0x28(fs[0x28])havearandomvalue?(3个答案)关闭4年前。紧接执行此指令之前，fs包含0x0。另外我想知道如何从GDB中的这个内存区域读取，该命令是什么？

amp linux section notice span assembly gdb x86-64

linux - "mov rax, QWORD PTR fs:0x28"汇编指令有什么作用？

这个问题在这里已经有了答案:Whydoesthismemoryaddress%fs:0x28(fs[0x28])havearandomvalue?(3个答案)关闭4年前。紧接执行此指令之前，fs包含0x0。另外我想知道如何从GDB中的这个内存区域读取，该命令是什么？

amp linux section notice span assembly gdb x86-64

c++ - gcc -O0 在矩阵大小为 2 的幂(矩阵转置)上优于 -O3

(出于测试目的)我写了一个简单的方法来计算nxn矩阵的转置voidtranspose(constsize_t_n,double*_A){for(uinti=0;i当使用优化级别O3或Ofast时，我希望编译器展开一些循环，这将导致更高的性能，尤其是当矩阵大小是2的倍数时(即，每次迭代都可以执行双循环体)或类似情况。相反，我测量的结果恰恰相反。2的幂实际上显示了执行时间的显着峰值。这些尖峰也以64为固定间隔，以128为间隔更明显，依此类推。每个尖峰都延伸到相邻的矩阵大小，如下表所示sizentime(us)10202649102128151022310010235428102415791

优于 amp rax PTR mov c++gcc linear-algebra compiler-optimization execution-time

c++ - gcc -O0 在矩阵大小为 2 的幂(矩阵转置)上优于 -O3

(出于测试目的)我写了一个简单的方法来计算nxn矩阵的转置voidtranspose(constsize_t_n,double*_A){for(uinti=0;i当使用优化级别O3或Ofast时，我希望编译器展开一些循环，这将导致更高的性能，尤其是当矩阵大小是2的倍数时(即，每次迭代都可以执行双循环体)或类似情况。相反，我测量的结果恰恰相反。2的幂实际上显示了执行时间的显着峰值。这些尖峰也以64为固定间隔，以128为间隔更明显，依此类推。每个尖峰都延伸到相邻的矩阵大小，如下表所示sizentime(us)10202649102128151022310010235428102415791

优于 amp rax PTR mov c++gcc linear-algebra compiler-optimization execution-time

c++ - 为什么这个函数将 RAX 插入堆栈作为第一个操作？

在下面的C++源程序集中。为什么将RAX插入堆栈？RAX，据我所知，ABI可以包含来自调用函数的任何内容。但是我们将它保存在这里，然后将堆栈向后移动8个字节。所以堆栈上的RAX是，我认为只与std::__throw_bad_function_call()相关。手术...？代码:-#includevoidf(std::functiona){a();}输出，来自gcc.godbolt.org，使用Clang3.7.1-O3:f(std::function):#@f(std::function)pushraxcmpqwordptr[rdi+16],0je.LBB0_1addrsp,8jmpq

amp 43 code section void c++assembly x86 x86-64 abi

c++ - 使用进位标志的高效 128 位加法

我在我的C++代码的内部循环中使用了一个128位整数计数器。(无关背景:实际应用是在规则网格上评估有限差分方程，这涉及重复递增大整数，即使64位也不够精确，因为小舍入累积到足以影响答案。)我将整数表示为两个64位无符号长整数。我现在需要将这些值增加一个128位常量。这并不难，但您必须手动捕捉从低位字到高位字的进位。我有类似这样的工作代码:inlinevoidincrement128(unsignedlong&hiWord,unsignedlong&loWord){constunsignedlonghiAdd=0x0000062DE49B5241;constunsignedlongloA

amp 43 code unsigned rax c++gcc assembly bigint carryflag

c++ - 使用进位标志的高效 128 位加法

我在我的C++代码的内部循环中使用了一个128位整数计数器。(无关背景:实际应用是在规则网格上评估有限差分方程，这涉及重复递增大整数，即使64位也不够精确，因为小舍入累积到足以影响答案。)我将整数表示为两个64位无符号长整数。我现在需要将这些值增加一个128位常量。这并不难，但您必须手动捕捉从低位字到高位字的进位。我有类似这样的工作代码:inlinevoidincrement128(unsignedlong&hiWord,unsignedlong&loWord){constunsignedlonghiAdd=0x0000062DE49B5241;constunsignedlongloA

amp 43 code unsigned rax c++gcc assembly bigint carryflag