关于cpu体系架构的一些有趣的故事分享

周荣华 2023-03-28 原文

从排查一次匪夷所思的coredump，引出各种体系架构的差异。

本文中的所有内容来自学习DCC888的学习笔记或者自己理解的整理，如需转载请注明出处。周荣华@燧原科技

1 背景

从全世界有记载的第一台计算机Z1 (computer) - Wikipedia在1936年发明，到1946年冯诺依曼体系架构的清晰提出，计算机体系架构的演进虽然没有什么革命性的变化，但各种体系架构的微调还是很明显的。

发展到现在虽然存在X86/ARM/MIPS/ALPHA/PPC/RISC-V等多种门派，但实际的设计思想上，主要有两种，一种是基于X86的系统架构，另外一种就是其他系统架构。

为什么这么分？

因为X86的很多特性，基本上只有X86有，而其他体系架构基本上都是共享的另外一种。

例如CISC和RISC，字节对齐，变长指令和固定长度指令，指令寻址模式，等等。

现在用的各种体系架构，只有x86是复杂指令集，变长，内存访问可以不是字节对齐的（当然，对齐之后性能更好），没有固定的加载和保存指令，而是采用很多计算指令直接访问内存。

相对于x86，其他体系架构，包括ARM/MIPS/ALPHA/PPC/RISC-V，都是精简指令集，指令长度也是固定的，内存访问必须对齐，否则coredump，内存的访问只能通过有限的几个加载和保存指令进行，其他计算指令仅限于在寄存器上操作。

2 体系架构

计算机的体系架构，英文称为Computer architecture - Wikipedia，涉及的工作主要分三部分：

指令集、微架构和系统设计。

其中指令集相当于用户界面，是软件和硬件的接口。

微架构是指令集的具体实现。

系统设计主要是支撑微架构的内存、总线、功耗等设计。

下面的问题单就X86来阐述。

32位的处理器太古老，我们单说64位之后的故事。

x86-64 - Wikipedia讲述了x86-64的体系架构的微架构演进过程：

最早出来的是x86-64，相当于64位x86的基线版本，基本上所有64位x86处理器都支持，包括常见的MMX、SSE、FPU，都不是问题。基于这个基线版本往上发展出了v2/v3和v4版本。

现在虚拟机（QEMU）基本上支持到v2就终结了，所以后面v3/v4变成了少数用户的选择。随着这些微架构的演进，不仅指令集，寄存器也会有较大变化。那怎么保证编译出来的程序在各种x86的硬件上都能正常运行是个大问题。解决这个问题的主角就是编译器。

考虑到泛化和性能的不同要求，即使在同样的体系架构下，也可以指定具体的硬件版本，这就是gcc/clang等编译器的arch参数的由来。

x86 Options (Using the GNU Compiler Collection (GCC))中提到的arch的取值从各种具体的处理器型号，到泛化的v2/v3/v4，都是为了方便程序员可以尽可能保证兼容性的前提下，也能提升性能。

如果不考虑泛化，用户还可以简单用一个-march-native在x86平台上实现基于当前硬件的极致优化。

3 问题

这里碰到的一个问题就是极致优化带来的兼容性问题。

某服务器上编译出来的版本，在部分x86的机器上能正常运行，但部分x86机器上不能正常运行。通过gdb断点排查，报非法指令，而且代码段指向vxorps这条指令，后面紧跟着的3个寄存器非常扎眼zmm。

zmm寄存器是v4版本引入的功能。

能运行含zmm寄存器指令的cpu是“Intel(R) Xeon(R) Gold 6130 CPU @ 2.10GHz”，网上查了一下，是intel 2017年的产品。

到目前位置，MMX指令使用的寄存器经过了三代演进，xmm/ymm/zmm：

xmm0 ~ xmm15, are 128 bits, almost every modern machine has it, they are released in 1999.
ymm0 ~ ymm15, are 256 bits, new machine usually have it, they are released in 2011.
zmm0 ~ zmm31, are 512 bits, normal pc probably don't have it (as the year 2016),

由于后一代的寄存器长度是上一代的两倍，决定了前一代处理器是无法使用后一代处理器的寄存器的，相反，本地如果是更高一级的寄存器，可以运行低级的寄存器相关指令。

同样的代码，都指定-march=native的情况下，在“AMD Ryzen Threadripper 3960X 24-Core Processor”上编译的结果是这样的，指令本身没有变，寄存器从zmm变成了xmm。

4 问题的解决

既然知道是gcc的arch指定有问题导致的，就要从修改arch入手。

做了一些实验，例如下面左边是-march=native编译，右边是-march=x86-64的结果。可以看出native编译出来使用incl，相对于addl，使指令更短，性能更好。

最终各种实验对比结果看结论如下：

-m64 -march=x86-64 -mtune=generic 编译出来的结果使用xmm寄存器
-march=native 编译出来的结果，在amd服务器上是xmm寄存器，在intel服务器上是zmm寄存器

为了保证兼容性，先统一用-m64 -march=x86-64 -mtune=generic 进行编译。

5 怎么做的更好

由于大多数编译器还不支持-march=x86-64-v2等直接选择x86-64具体版本的选项，有一种折中方案是native-avx512的做法，一般参数是这样的：

add_compile_options (-march=native)
add_compile_options (-mno-avx512f)

这样写的意思是其他方面可以尽量用本地能支持的最新的，但不要使用avx512f的功能，约等于x86-64-v3这个arch参数的功能。

有趣 cpu 寄存 nbsp 的架构设计

有关关于cpu体系架构的一些有趣的故事分享的更多相关文章

ruby-on-rails - 如何生成传递一些自定义参数的 `link_to` URL？ - 2
我正在使用RubyonRails3.0.9，我想生成一个传递一些自定义参数的link_toURL。也就是说，有一个articles_path(www.my_web_site_name.com/articles)我想生成如下内容:link_to'Samplelinktitle',...#HereIshouldimplementthecode#=>'http://www.my_web_site_name.com/articles?param1=value1¶m2=value2&...我如何编写link_to语句“alàRubyonRailsWay”以实现该目的？如果我想通过传递一些
ruby - 找一些句子 - 2
我想找到在某些文本中找到一些(让它是两个)句子的好方法。什么会更好-使用正则表达式或拆分方法？你的想法？应JeremyStein的要求-有一些例子示例:输入:ThefirstthingtodoistocreatetheCommentmodel.We’llcreatethisinthenormalway,butwithonesmalldifference.IfwewerejustcreatingcommentsforanArticlewe’dhaveanintegerfieldcalledarticle_idinthemodeltostoretheforeignkey,butinthis
ruby-on-rails - 关于 Ruby 的一般问题 - 2
我在我的rails应用程序中安装了来自github.com的acts_as_versioned插件，但有一段代码我不完全理解，我希望有人能帮我解决这个问题class_eval我知道block内的方法(或任何它是什么)被定义为类内的实例方法，但我在插件的任何地方都找不到定义为常量的CLASS_METHODS，而且我也不确定是什么here，并且有问题的代码从lib/acts_as_versioned.rb的第199行开始。如果有人愿意告诉我这里的内幕，我将不胜感激。谢谢-C 最佳答案这是一个异端。http://en.wikipedia
ruby - Ruby 和 Ruby on Rails 中的三层架构 - 2
我是一名决定学习Ruby和RubyonRails的ASP.NETMVC开发人员。我已经有所了解并在RoR上创建了一个网站。在ASP.NETMVC上开发，我一直使用三层架构:数据层、业务层和UI(或表示)层。尝试在RubyonRails应用程序中使用这种方法，我发现没有关于它的信息(或者也许我只是找不到它？)。也许有人可以建议我如何在RubyonRails上创建或使用三层架构？附言我使用ruby1.9.3和RubyonRails3.2.3。最佳答案我建议在制作RoR应用程序时遵循RubyonRails(RoR)风格。Rails
ruby block 并从 block 中返回一些东西 - 2
我正在使用ruby1.8.7。p=lambda{return10;}deflab(block)puts'before'putsblock.callputs'after'endlabp以上代码输出为before10after我将相同的代码重构到这里deflab(&block)puts'before'putsblock.callputs'after'endlab{return10;}现在我收到LocalJumpError:意外返回。对我来说，这两个代码都在做同样的事情。是的，在第一种情况下我传递了一个过程，在第二种情况下我传递了一个block。但是&block将该block转换为pro
ruby - 我怎样才能更好地了解/了解更多关于 Ruby 的知识？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我最近开始学习Ruby，这是我的第一门编程语言。我对语法感到满意，并且我已经完成了许多只教授相同基础知识的教程。我已经写了一些小程序(包括我自己的数组排序方法，在有人告诉我谷歌“冒泡排序”之前我认为它非常聪明)，但我觉得我需要尝试更大更难的东西来理解更多关于Ruby.关于如何执行此操作的任何想法？
ruby - 关于 Ruby 中 Dir[] 和 File.join() 的混淆 - 2
我在Ruby中遇到了一个关于Dir[]和File.join()的简单程序，blobs_dir='/path/to/dir'Dir[File.join(blobs_dir,"**","*")].eachdo|file|FileUtils.rm_rf(file)ifFile.symlink?(file)我有两个困惑:首先，File.join(@blobs_dir,"**","*")中的第二个和第三个参数是什么意思？其次，Dir[]在Ruby中有什么用？我只知道它等价于Dir.glob()，但是，我对Dir.glob()确实不是很清楚。最佳答案
ruby-on-rails -/usr/local/lib/libz.1.dylib，文件是为 i386 构建的，它不是被链接的体系结构 (x86_64) - 2
在我的mac上安装几个东西时遇到这个问题，我认为这个问题来自将我的豹子升级到雪豹。我认为这个问题也与macports有关。/usr/local/lib/libz.1.dylib,filewasbuiltfori386whichisnotthearchitecturebeinglinked(x86_64)有什么想法吗？更新更具体地说，这发生在安装nokogirigem时日志看起来像:xslt_stylesheet.c:127:warning:passingargument1of‘Nokogiri_wrap_xml_document’withdifferentwidthduetoproto
ruby - 如果键存在，向散列值添加一些东西？ - 2
我在Ruby中有一个哈希:hash=Hash.new里面有一些键值对，比如说:hash[1]="One"hash[2]="Two"如果散列包含键2，那么我想将“Bananas”添加到它的值中。如果散列没有键2，我想创建一个新的键值对2=>"Bananas"。我知道我可以通过首先使用has_key?检查散列是否具有key2来做到这一点，然后采取相应的行动。但这需要一个if语句和不止一行。那么是否有一种简单、优雅的单行代码可以实现这一目标？最佳答案这个有效:hash[2]=(hash[2]||'')+'Bananas'如果您希望所有
elasticsearch源码关于TransportSearchAction【阶段三】 - 2
1.回顾.TransportServicepublicclassTransportServiceextendsAbstractLifecycleComponentTransportService：方法：1publicfinalTextendsTransportResponse>voidsendRequest(finalTransport.Connectionconnection,finalStringaction,finalTransportRequestrequest,finalTransportRequestOptionsoptions,TransportResponseHandlerT>