x86

c++ - 为什么 128 位变量应该与 16 字节边界对齐

众所周知，X86CPU有64位的数据总线。我的理解是CPU不能访问任意地址。CPU可以访问的地址是其数据总线宽度的整数倍。为了性能，变量应该从(对齐到)这些地址开始，以避免额外的内存访问。对齐到4Byte边界的32位变量将自动对齐到8Byte(64位)边界，这对应于x8664位数据总线。但为什么编译器将128位变量与16字节边界对齐？不是8字节边界？谢谢让我更具体一点。编译器使用变量的长度来对齐它。例如，如果一个变量的长度为256位，Complier会将其对齐到32字节边界。我认为没有任何一种CPU具有那么长的数据总线。此外，普通的DDR内存一次只能传输64位数据，尽管有缓存，内存如何

amp 43 section CPU stackoverflow c++c memory-management assembly x86

c++ - 编译 Qt 应用程序时出现体系结构 x86_64 错误的重复符号

我正在尝试使用Qtcreator在osx上编译Qt应用程序。应用程序在widows中成功编译。但在mac中，它会给出以下链接器错误。2duplicatesymbolsforarchitecturex86_64linkercommandfailedwithexitcode1(use-vtoseeinvocation)有没有人知道一种方法来检查链接器提示的重复符号是什么？我在我的.pro文件中使用了以下但没有成功。QMAKE_LFLAGS+=-v 最佳答案通过N1ghtLight发表评论作为答案。Duplicatesymbolsfou

时出 amp code section c++macos qt

c++ - 为什么同一内核(超线程)中的两个线程比两个内核的 L1 写访问权限更差？

我编写了一个c/c++程序(printf和std::的混合)来了解不同的缓存性能。我想并行化一个在大块内存上计算的进程。我必须对相同的内存位置进行多次计算，因此我将结果写到位，覆盖源数据。完成第一个微积分后，我会用之前的结果再做一个。我猜想如果我有两个线程，一个执行第一个微积分，另一个执行第二个，我会提高性能，因为每个线程完成一半的工作，从而使处理速度提高一倍。我已经阅读了缓存的工作原理，所以我知道如果做得不好，可能会更糟，所以我编写了一个小程序来衡量一切。(请参阅下面的机器拓扑、CPU类型和标志以及源代码。)我看到了一些奇怪的结果。显然，为了执行计算。如果我在同一个缓冲区或两个不同的

amp 43 cache 0x 34 c++multithreading x86

c++ - 向右移动4个整数不同的值SIMD

SSE没有提供将打包整数移位可变数量的方法(我可以使用任何AVX及更早版本的指令)。您只能进行统一轮类。我试图为vector中的每个整数实现的结果是这样的。i[0]=i[0]&0b111111;i[1]=(i[1]>>6)&0b111111;i[2]=(i[2]>>12)&0b111111;i[3]=(i[3]>>18)&0b111111;本质上是尝试在每个整数中隔离6位不同的组。那么最佳的解决方案是什么？我想到的事情:您可以模拟可变的右移，可变的左移和统一的右移。我考虑过将打包整数分别乘以不同的量(因此模拟左移)。然后，使用该结果，您可以执行统一的右移操作以获得答案。我将用于乘法的特

amp 43 code xmm xmm0 c++x86 sse simd avx

c++ - ABI 与 C++ 标准

我试图了解ABI(比如SystemV)和C++标准的区别。所以C++标准只是确定合法的C++，以便编译器可以将其转换为足够的汇编代码。ABI然后规范这个汇编代码如何与x86架构交互？这是两者之间更高层次的比较吗？我问的原因是对低延迟软件感兴趣，我想知道读取ABI会包含多少值(value)？最佳答案该标准根据您编写的代码定义程序应该做什么。ABI定义了特定平台的实现方式，以便在不同运行(可能由不同的编译器/版本)编译的代码可以交互。也就是说，当你写:voidf(inti){std::cout标准定义了行为:对该函数的调用将导致参数

amp 43 section C++ABI c++assembly x86 cpu

c++ - C++ 中的读写线程安全智能指针，x86-64

我开发了一些无锁数据结构，但出现了以下问题。我有一个编写器线程，它在堆上创建对象并将它们包装在带有引用计数器的智能指针中。我也有很多阅读线程，它们与这些对象一起工作。代码可能如下所示:SmartPtrptr;classReader:publicThread{virtualvoidRun{for(;;){SmartPtrlocal(ptr);//dosmth}}};classWriter:publicThread{virtualvoidRun{for(;;){SmartPtrnewPtr(newObject);ptr=newPtr;}}};intmain(){Pool*pool=Syst

amp 43 shared_ptr ptr shared c++thread-safety x86 smart-pointers lock-free

c++ - 当值变得很小时，为什么这些计算需要多 20 倍的时间

这个问题在这里已经有了答案:Whydoeschanging0.1fto0slowdownperformanceby10x?(6个答案)关闭8年前。我是一名电路设计师，不是软件工程师，所以我不知道如何追踪这个问题。我正在使用一些IIR过滤器代码，当我通过过滤器处理极小的值时，我遇到了执行时间极慢的问题。为了找到问题，我写了这段测试代码。正常情况下，循环将运行大约200毫秒左右。(我没测。)但是当TestCheckBox->Checked时，需要7秒左右才能运行。问题在于循环内A、B、C和D的大小减小，这正是IIR滤波器中的值在输入变为零后发生的情况。我认为问题在于变量的指数值变得小于-3

当值 amp section double 维基 c++c++builder x86

C++11 原子 x86 内存排序

在C++0x中原子变量的文档之一中，在描述内存顺序时，它提到:Release-AcquireOrderingOnstrongly-orderedsystems(x86,SPARC,IBMmainframe),release-acquireorderingisautomatic.NoadditionalCPUinstructionsareissuedforthissynchronizationmode,onlycertaincompileroptimizationsareaffected...首先，x86遵循严格的内存排序是真的吗？总是强加这一点似乎效率很低。意味着每次写入和读取都有一个

amp 43 section x86 strong c++c++11 atomic

c++ - 使用 SSE 内在函数编译一个简单的 c++ 程序

我是SSE说明的新手，我试图从这个网站学习它们:http://www.codeproject.com/Articles/4522/Introduction-to-SSE-Programming我在Ubuntu10.10和IntelCorei7960CPU上使用GCC编译器这是基于我尝试过的文章的代码:对于长度为ARRAY_SIZE的两个数组，它计算fResult[i]=sqrt(fSource1[i]*fSource1[i]+fSource2[i]*fSource2[i])+0.5这是代码#include#include#include#include#include//Contain

amp 43 aligned m_fArray float c++x86 sse simd

C++:使用 "Undefined symbols for architecture x86_64"时出现 "std"错误

我是一名新的C++程序员，我正在尝试运行一个简单的我已经创建了一个文件“test.cpp”，我正在使用gcc在命令行上对其进行编译。命令是“gcctest.cpp-otest”。然后我运行“./test”。(是的，这个过程听起来很基本。)文件如下:#includeintmain(){printf("HelloWorld!");std::cout当我包含包含std的行时，gcc返回以下长错误:Undefinedsymbolsforarchitecturex86_64:"std::__1::locale::use_facet(std::__1::locale::id&)const",ref

amp 时出 char std char_traits c++macos gcc

23 24 252627 28 29