x86

c++ - x86 上两个 128 位整数的高效乘法/除法(无 64 位)

编译器:MinGW/GCC问题:不允许使用GPL/LGPL代码(GMP或任何bignum库对于这个问题来说都太过分了，因为我已经实现了该类)。我构建了自己的128位固定大小的大整数类(旨在用于游戏引擎，但可以推广到任何用例)并且我发现当前乘法的性能并且除法操作非常糟糕(是的，我已经对它们进行了计时，见下文)，并且我想改进(或更改)执行低级数字运算的算法。当谈到乘法和除法运算符时，与类里面的几乎所有其他运算符相比，它们的速度慢得令人无法忍受。这些是相对于我自己的计算机的近似测量值:RawtimesasdefinedbyQueryPerformanceFrequency:1/60sec31

amp 43 strong dw mask c++algorithm x86 bignum

c++ - 处理双数组的未对齐部分，将其余部分向量化

我正在生成sse/avx指令，目前我必须使用未对齐的加载和存储。我在一个浮点/double组上操作，我永远不知道它是否会对齐。因此，在对其进行矢量化之前，我希望有一个前循环，可能还有一个后循环，它负责处理未对齐的部分。然后主矢量化循环在对齐的部分上运行。但是我如何确定数组何时对齐？我可以检查指针值吗？pre-loop什么时候停止，post-loop什么时候开始？这是我的简单代码示例:voidfunc(double*in,double*out,unsignedintsize){for(aslongasinunalignedpart){out[i]=do_something_with_ar

双数 amp double 34 SIMD_WIDTH c++c x86 vectorization sse

c++ - 为什么这 8 个字节的写入没有优化成一个 MOV？

我和我的同事都没有成功解释为什么GCC、ICC和Clang没有优化这个功能voidf(std::uint64_ta,void*p){std::uint8_t*x=reinterpret_cast(p);x[7]=a>>56;x[6]=a>>48;x[5]=a>>40;x[4]=a>>32;x[3]=a>>24;x[2]=a>>16;x[1]=a>>8;x[0]=a;}进入这个movQWORDPTR[rsi],rdi如果我们根据memcpy制定f，它只会发出mov。为什么doesitnothappen如果我们执行看似微不足道的字节写入序列？最佳答案

化成 amp section https code c++gcc optimization x86 micro-optimization

c++ - SSE 优化的 64 位整数模拟

对于我正在从事的业余项目，我需要在x86CPU上模拟某些64位整数运算，并且它需要快速。目前，我正在通过MMX指令执行此操作，但这真的很麻烦，因为我必须一直刷新fp寄存器状态(并且因为大多数MMX指令处理已签名整数，我需要无符号行为)。所以我想知道SO上的SSE/优化专家是否可以使用SSE提出更好的实现。我需要的操作如下(非常具体):uint64_tX,Y;X=0;X=1;XY;具体来说，我不需要通用的加法或移位，比如只加一个，左移一个。真的，只是此处显示的精确操作。当然，在x86上除外，uint64_t通过使用两个32位标量来模拟，这很慢(而且，在我的例子中，根本不起作用，因为我需要

amp 43 code 128 strong c++optimization x86 64-bit sse

c++ - Xcode C++::架构 x86_64 的重复符号

我是Xcode的新手，当我构建以下代码(MWE)时，出现以下错误ld:3duplicatesymbolsforarchitecturex86_64clang:error:linkercommandfailedwithexitcode1(use-vtoseeinvocation)我有如下三个文件；main.cpp#include"B.cpp"intmain(){square(5);return0;}B.cpp#include"A.cpp"voidsquare(intn){display(n*n);}A.cpp#includeusingnamespacestd;voiddisplay(in

amp 43 code cpp blockquote c++xcode xcode6 clang

c++ - 如何有效地并行设置位 vector 的位？

考虑N的位vector其中的位(N很大)和M的数组数字(M中等，通常比N小得多)，每个都在0..N-1范围内指示vector的哪一位必须设置为1.后一个数组未排序。位vector只是一个整数数组，特别是__m256i，其中每个__m256i被打包成256位结构体。如何在多个线程中有效地拆分这项工作？首选语言是C++(MSVC++2017工具集v141)，汇编也很棒。首选CPU是x86_64(内在没问题)。如果有任何好处，则需要AVX2。最佳答案假设您想将这项工作分配给T线程。这是一个非常有趣的问题，因为它不能通过分区简单地并行化

amp vector code br 的 c++algorithm parallel-processing x86 bit-manipulation

c++ - 奇怪的编译代码

我已经用谷歌的nacl编译器编译了一些Qt代码，但是ncval验证器没有理解它。众多例子之一:src/corelib/animation/qabstractanimation.cpp:165相关代码如下:#defineQ_GLOBAL_STATIC(TYPE,NAME)\staticTYPE*NAME()\{\staticTYPEthisVariable;\staticQGlobalStaticthisGlobalStatic(&thisVariable);\returnthisGlobalStatic.pointer;\}#ifndefQT_NO_THREADQ_GLOBAL_STA

amp 43 section unifiedTimerv 验证器 c++qt assembly x86 google-nativeclient

c++ - lli: LLVM 错误: 无法选择: X86ISD::WrapperRIP TargetGlobalTLSAddress:i64

在Linux(Debian)上使用clang++-S-emit-llvmmain.cpp&&llimain.ll运行以下代码#includeintmain(){returnstd::async([]{return1;}).get();}由于以下错误，无法在lli上运行:LLVMERROR:Cannotselect:0xd012e0:i64=X86ISD::WrapperRIPTargetGlobalTLSAddress:i640[TF=10]0xd020c0:i64=TargetGlobalTLSAddress0[TF=10]Infunction:_ZSt9call_onceIMNSt

TargetGlobalTLSAddress WrapperRIP code section llvm c++g++clang llvm-ir lli

c++ - 是否有用于 x86 的良好 double 小型矩阵 SIMD 库？

我正在寻找专注于图形的小型(4x4)矩阵运算的SIMD库。那里有很多单精度的，但我需要同时支持单精度和double。我看过Intel的IPPMX库，但我更喜欢有源代码的东西。我对这些特定操作的SSE3+实现非常感兴趣:Mat4*Mat4Mat4*Vec4Mat4*Mat4数组Mat4*Vec4数组Mat4反演(很高兴)编辑:请不要回答“过早优化”。任何使用过小矩阵的人都知道GCC不会像手动优化内在函数或ASM那样对这些进行矢量化。在这种情况下，这很重要，否则我不会问。最佳答案也许是Eigen图书馆？它支持SSE2/3/4、ARM

amp 小型 section Mat4 单精度 c++sse simd matrix-multiplication

c - 为什么我不应该使用 fastcall 而不是标准的 cdecl？

我听一些人说__fastcall比__cdecl和__stdcall快，因为它把两个参数放在寄存器中，而不是一个其他电话；但是，另一方面，这不是C中使用的标准。我想知道是什么让__fastcall不像C中的标准那样令人讨厌，以及我什么时候会在我的代码中使用它。最佳答案 x86平台的不同寻常之处在于它没有定义全局ABI和调用约定。Win32/x86可以，它在stdcall上标准化。调用约定之间存在各种权衡——将参数放在寄存器中速度更快，但它会强制调用者溢出之前使用这些寄存器的任何内容。因此很难预测哪个性能更好。重要的是要有一个统一的

fastcall cdecl code section 寄存 c x86 calling-convention

40 41 424344 45 46