草庐IT

FPGA应用案例——超级计算机

FPGA技术联盟 2024-02-07 原文

01超级计算机和FPGA

1、超算?

      大数据、基因科学、金融工程、人工智能、新材料设计、制药和医疗工程、气象灾害预测等领域所涉及的计算处理,家用个人计算机级别的性能是远远不够的。超级计算机(以下简称超算)就是为了解决这种超大规模的问题而开发的。超算并没有一个明确的定义, 通常所说的超算大致是性能在家用计算机的1000倍以上,或者理论性能在50 TFLOPST以上的系统。

      FPGA作为可以提高超算能效比的通用器件受到了广泛关注。从性能、灵活性和功耗效率方面,CPU、FPGA和ASIC里面FPGA走的是中间路线。FPGA的功耗效率是高于CPU的,灵活性高于ASIC;从功耗效率、性能保障性和算法适用性来看,FPGA应该是碾压GPU的。GPU适用的算法非常有限,拿到一个算法,能否达到最终的性能是有风险的;早期GPU的实现算法非常容易,但是自从Xilinx在高层次综合HLS方面深度耕耘后,FPGA的编程容易度也降低了很多。其优势是不但可以作为运算加速器,还可以作为连接器件让超算中众多的运算处理器和运算加速器更紧密地结合。此外,IoT技术正在推动硬件基础设施的升级,今后运算和数据的集中化和分散化进程都会加速发展。在这个进程当中,为了运用超算技术,也要求数据中心具备更加崭新和有效的方法和技术口。除了大规模计算以外,从强化升级社会IT基础建设的角度上看,超算技术也越来越必要。因此,PLD/FPGA必将会在超算中得到更广泛的运用。

02

超算中的FPGA应用案例

1、首先是筑波大学20世纪70年代开始研发用于科学计算的并行计算机PACS/PAX,而HA-PACS是该系列的第8代。PACS/PAX系列自开发之初就以实现了CPU和内存间的高速互联架构而闻名。HA-PACS是PACS/PAX系列中首次采用GPU作为运算加速器的超算。用GPU提高超算性能,还必须要实现能够充分发挥GPU高运算性能的并行系统架构。然而,HA-PACS开发时的GPU存在些问题,导致难以实现高效的并行系统架构。例如在多个GPU间共享数据时,传输前后需要在宿主CPU的主存中进行数据复制。还有将数据传输从PCle转为其他通信方式时,很难削减通信延迟。为了改善这些问题,HA-PACS系统基于PEARL ( PCI Express Adaptive and Reliable Link)概念提出了TCA ( Tightly Coupled Accelerato-rs) 技术,并开始开发实现TCA的PEACH2板卡。

那么由CPU+GPU+FPGA组成的异构系统的性能又如何呢? HA-PACS/TCA是一个只有64个节点的小规模系统,理论性能为364.3TFLOPS,实测性能为277.1 TFLOPS, 2013年11月位列TOP500的第134名。另外,由于该系统达到了3.52 GFLOPS/W的高能效比,在2013年11月和2014年6月的Green500榜中位列第3名。HA-PACS/TCA的基础部分采用GPU和CPU组合来实现高性能、低功耗的运算,再加上基于FPGA的PEACH2的使用,进一步提高了跨学科合作应用中的运算性能。

PEACH2提供了可以让多个GPU直接互联通信的框架。具体来说,PEACH2扩展了PCle通信连接,并实现了GPU间的直接通信,从而达到了提高数据传输效率的目的”。技术上,PEACH2实现了一种路由,可以将PCIe协议中Root Complex和多个End Point间的数据包在多个节点间传输。

原本的数据传输路径GPUmem→CPUmem→(InfiniBand/MPI)→CPUmem→GPU mem, 缩短为了GPU mem→(PCIe/PEACH2)→GPU mem,即GPU间的直连传输。此外,通信协议的统一也实现了比InfiniBand更低的延迟。

    下面一起看一下PEACH2的通信性能。PEACH2具备4个PCleGen2 x8 (8通路)端口。这里的端口数量上的限制并非源于PEACH2本身,而是因为所采用的FPGA器件的物理限制,这点可以通过FPGA制造技术的提升而改善。PEACH2中GPU对GPU的DMA的Ping-pong延迟为2.0us ( 100万分之2秒),CPU对CPU的延迟为1.8 us,可以说通信延迟十分小了。PEACH2能达到这种性能要归功于使用了PLD/FPGA,正因如此它才能将传输开销降低到2.0 us的程度。这个性能和MVAPICH2 v2.0-GDR ( 带GDR : 4.5us ;不带GDR : 19 us) 相比已经足够了。FPGA的采用实现了轻量化协议、多RootComplex互联、Block-Stride通信硬件,从而获得了高应用性能。此外,在Ping-pong带宽方面,PEACH2 的CPU对CPU的DMA传输性能约为3.5 GB/s,达到了理论性能的95%;GPU对GPU的DMA性能约为2.8GB/s。然而,当负载大小超过512 KB时MVAPICH2 v2.0-GDR的性能更高,可以在实际应用时根据需求进行选择。综上,无论研究领域或商业系统,今后都会继续探索能够发挥PLD/FPGA优势的高效方法,从而提高系统的整体性能。

2、其次是Cray Research,该公司的超级计算机:XD1就有用上FPGA,XD1用的是Xilinx(赛灵思)公司的VIRTEX系列FPGA。XD1机内有所谓的FPGA应用程序加速模块(FPGA ApplicaTIon AcceleraTIon Module),模块等于是机内的一个小型辅助运算系统,VIRTEX是模块内的主控芯片,等于是一个协同处理器(Co-Processor),只不过这个协同处理器与ASIC型式的协同处理器不同,FPGA具有可程序化的功效,因此VIRTEX是一颗可程序化的协同处理器。运算模块内除了有FPGA的协同处理器外,处理器也必须搭配内存才能行使运算,所以FPGA会再连接4颗QDR II SRAM(极高速性的内存),然后模块一方面用HyperTransport与XD1的主处理器相连,另一方面也连往XD1的特有高速I/O界面:RapidArray。

      接着,由于高效运算多是执行大量重复性的运算,例如气象预测、风洞测试等,所以可以将执行的应用程序转化成FPGA内的组态(ConfiguraTIon)程序,以硬件线路方式来执行运算,如此将比过往用纯软件方式执行快上数倍至数十倍的效能,甚至在特定的应用运算上能达一百倍以上的效能。

      更仔细而言,其实是将整个应用程序中重复性最高、且最经常用的函数库进行转化,并以FPGA的硬件线路执行,如此就能获得最大的加速效果。

      Cray如此,与Cray同为高效运算市场的另一家业者:SGI(视算科技)也实行相同的作法,SGI提出所谓的RASC(Reconfigurable ApplicaTIon Specific Computing,可组态化应用程序性运算,)RASC也是以模块方式让原有的超级计算机能获得加速效果。

       SGI的作法与Cray有部分相同也有部分不同,Cray是将模块设置在原有超级计算机的机内,而SGI则是运用既有超级计算机机箱的上部来加搭加速模块,不过就功效机制而言两者异曲同工,此外两者都使用Xilinx的VIRTEX系列FPGA,但是内存与I/O部分两家也实行不同的设计,Cray是使用QDR II SRAM,SGI则是可实行QDR SRAM,或者也可用DDR2 SDRAM,前者容量少(80MB)但速度快,后者容量大(20GB)而速度慢,提供两种选择的原因是可依据不同的应用程序特性来选用。

      另外,高效运算业者通常有独门的机内通讯传输技术,RapidArray即是Cray的独家技术,而SGI自身也有独家的传输技术,即NUMAlink 4(已是第四代技术),所以SGI的RASC不是使用RapidArray,而是使用NUMAlink 4。

        其实Cray系统内所用的FPGA模块是与DRC Computer公司技术合作而成,因此DRC Computer自身也有提供相近方案,DRC的RPU(Reconfigurable Processor Units)同样也是用FPGA来加速,一样是用Xilinx VIRTEX FPGA,但与主系统间的连接接口改成AMD Opteron处理器的接座接口,如此一般使用AMD Opteron处理器的x86服务器也可以加装RPU来提升高效运算的效能。

有关FPGA应用案例——超级计算机的更多相关文章

  1. ruby - 将差异补丁应用于字符串/文件 - 2

    对于具有离线功能的智能手机应用程序,我正在为Xml文件创建单向文本同步。我希望我的服务器将增量/差异(例如GNU差异补丁)发送到目标设备。这是计划:Time=0Server:hasversion_1ofXmlfile(~800kiB)Client:hasversion_1ofXmlfile(~800kiB)Time=1Server:hasversion_1andversion_2ofXmlfile(each~800kiB)computesdeltaoftheseversions(=patch)(~10kiB)sendspatchtoClient(~10kiBtransferred)Cl

  2. ruby-on-rails - Rails 应用程序之间的通信 - 2

    我构建了两个需要相互通信和发送文件的Rails应用程序。例如,一个Rails应用程序会发送请求以查看其他应用程序数据库中的表。然后另一个应用程序将呈现该表的json并将其发回。我还希望一个应用程序将存储在其公共(public)目录中的文本文件发送到另一个应用程序的公共(public)目录。我从来没有做过这样的事情,所以我什至不知道从哪里开始。任何帮助,将不胜感激。谢谢! 最佳答案 无论Rails是什么,几乎所有Web应用程序都有您的要求,大多数现代Web应用程序都需要相互通信。但是有一个小小的理解需要你坚持下去,网站不应直接访问彼此

  3. ruby - 无法运行 Rails 2.x 应用程序 - 2

    我尝试运行2.x应用程序。我使用rvm并为此应用程序设置其他版本的ruby​​:$rvmuseree-1.8.7-head我尝试运行服务器,然后出现很多错误:$script/serverNOTE:Gem.source_indexisdeprecated,useSpecification.Itwillberemovedonorafter2011-11-01.Gem.source_indexcalledfrom/Users/serg/rails_projects_terminal/work_proj/spohelp/config/../vendor/rails/railties/lib/r

  4. ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗? - 2

    刚入门rails,开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗?有哪些用例。您如何为Rails应用程序使用应用程序Controller?我不想在那里放太多代码,因为据我了解,每个请求都会调用此Controller。这是真的? 最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度,尽管在某些情况下ApplicationContr

  5. ruby-on-rails - 如何在我的 Rails 应用程序 View 中打印 ruby​​ 变量的内容? - 2

    我是一个Rails初学者,但我想从我的RailsView(html.haml文件)中查看Ruby变量的内容。我试图在ruby​​中打印出变量(认为它会在终端中出现),但没有得到任何结果。有什么建议吗?我知道Rails调试器,但更喜欢使用inspect来打印我的变量。 最佳答案 您可以在View中使用puts方法将信息输出到服务器控制台。您应该能够在View中的任何位置使用Haml执行以下操作:-puts@my_variable.inspect 关于ruby-on-rails-如何在我的R

  6. ruby-on-rails - 如何在 Gem 中获取 Rails 应用程序的根目录 - 2

    是否可以在应用程序中包含的gem代码中知道应用程序的Rails文件系统根目录?这是gem来源的示例:moduleMyGemdefself.included(base)putsRails.root#returnnilendendActionController::Base.send:include,MyGem谢谢,抱歉我的英语不好 最佳答案 我发现解决类似问题的解决方案是使用railtie初始化程序包含我的模块。所以,在你的/lib/mygem/railtie.rbmoduleMyGemclassRailtie使用此代码,您的模块将在

  7. 世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2

    无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD

  8. 叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2

    导读:随着叮咚买菜业务的发展,不同的业务场景对数据分析提出了不同的需求,他们希望引入一款实时OLAP数据库,构建一个灵活的多维实时查询和分析的平台,统一数据的接入和查询方案,解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型,最终引入ApacheDoris作为最终的OLAP分析引擎,Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图,在叮咚买菜数十个业务场景中广泛应用。作者|叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月,是一家专注美好食物的创业公司。叮咚买菜专注吃的事业,为满足更多人“想吃什么”而努力,通过美好食材的供应、美好滋味的开发以及美食品牌的孵

  9. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  10. ruby-on-rails - 从应用程序中自定义文件夹内的命名空间自动加载 - 2

    我们目前正在为ROR3.2开发自定义cms引擎。在这个过程中,我们希望成为我们的rails应用程序中的一等公民的几个类类型起源,这意味着它们应该驻留在应用程序的app文件夹下,它是插件。目前我们有以下类型:数据源数据类型查看我在app文件夹下创建了多个目录来保存这些:应用/数据源应用/数据类型应用/View更多类型将随之而来,我有点担心应用程序文件夹被这么多目录污染。因此,我想将它们移动到一个子目录/模块中,该子目录/模块包含cms定义的所有类型。所有类都应位于MyCms命名空间内,目录布局应如下所示:应用程序/my_cms/data_source应用程序/my_cms/data_ty

随机推荐