腾讯发布新一代超强算力集群：面向大模型训练，性能提升 3 倍

汪淼 2023-05-30 原文

新一代 HCC 高性能计算集群，采用最新一代星星海自研服务器，搭载英伟达 H800 Tensor Core GPU。

腾讯官方称，该集群基于自研网络、存储架构，带来 3.2T 超高互联带宽、TB 级吞吐能力和千万级 IOPS。实测结果显示，新一代集群算力性能较前代提升 3 倍。

去年 10 月，腾讯完成首个万亿参数的 AI 大模型 —— 混元 NLP 大模型训练。在同等数据集下，将训练时间由 50 天缩短到 11 天。如果基于新一代集群，训练时间将进一步缩短至 4 天。

计算层面，服务器单机性能是集群算力的基础，腾讯云新一代集群的单 GPU 卡在不同精度下，支持输出最高 1979 TFlops 的算力。

针对大模型场景，星星海自研服务器采用 6U 超高密度设计，相较行业可支持的上架密度提高 30%；利用并行计算理念，通过 CPU 和 GPU 节点的一体化设计，将单点算力性能提升至更高。

网络层面，计算节点间，存在着海量的数据交互需求。随着集群规模扩大，通信性能会直接影响训练效率，需要实现网络和计算节点的最大协同。

腾讯自研的星脉高性能计算网络，号称具备业界最高的 3.2T RDMA 通信带宽。实测结果显示，搭载同等数量的 GPU，3.2T 星脉网络相较 1.6T 网络，集群整体算力提升 20%。

同时，腾讯自研的高性能集合通信库 TCCL，融入定制设计的解决方案。相对业界开源集合通信库，为大模型训练优化 40% 负载性能，消除多个网络原因导致的训练中断问题。

存储层面，大模型训练中，大量计算节点会同时读取一批数据集，需要尽可能缩短数据加载时长，避免计算节点产生等待。

腾讯云自研的存储架构，具备 TB 级吞吐能力和千万级 IOPS，支持不同场景下对存储的需求。COS+GooseFS 对象存储方案和 CFS Turbo 高性能文件存储方案，充分满足大模型场景下高性能、大吞吐和海量存储要求。

此外，新一代集群集成了腾讯云自研的 TACO 训练加速引擎，对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化，大幅节约训练调优和算力成本。

腾讯混元大模型背后的训练框架 AngelPTM，也已通过腾讯云 TACO 提供服务，帮助企业加速大模型落地。

通过腾讯云 TI 平台的大模型能力和工具箱，企业可结合产业场景数据进行精调训练，提升生产效率、快速创建和部署 AI 应用。

依托分布式云原生的治理能力，腾讯云智算平台提供 16 EFLOPS 的浮点算力。

超强训练 data-id data 838747 人工智能腾讯

有关腾讯发布新一代超强算力集群：面向大模型训练，性能提升 3 倍的更多相关文章

世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
ruby-on-rails - 如何在发布新的 Ruby 或 Rails 版本时收到通知？ - 2
有人知道在发布新版本的Ruby和Rails时收到电子邮件的方法吗？他们有邮件列表，RubyonRails有一个推特，但我不想听到那些随之而来的喧嚣，我只想知道什么时候发布新版本，尤其是那些有安全修复的版本。最佳答案从therailsblog获取提要.http://weblog.rubyonrails.org/feed/atom.xml 关于ruby-on-rails-如何在发布新的Ruby或Rails版本时收到通知？，我们在StackOverflow上找到一个类似的问题：
Ruby 的数字方法性能 - 2
我正在使用Ruby解决一些ProjectEuler问题，特别是这里我要讨论的问题25(Fibonacci数列中包含1000位数字的第一项的索引是多少？)。起初，我使用的是Ruby2.2.3，我将问题编码为:number=3a=1b=2whileb.to_s.length但后来我发现2.4.2版本有一个名为digits的方法，这正是我需要的。我转换为代码:whileb.digits.length当我比较这两种方法时，digits慢得多。时间./025/problem025.rb0.13s用户0.02s系统80%cpu0.190总计./025/problem025.rb2.19s用户0.0
ruby - Ruby 性能中的计时器 - 2
我正在寻找一个用ruby演示计时器的在线示例，并发现了下面的代码。它按预期工作，但这个简单的程序使用30Mo内存(如Windows任务管理器中所示)和太多CPU有意义吗？非常感谢deftime_blockstart_time=Time.nowThread.new{yield}Time.now-start_timeenddefrepeat_every(seconds)whiletruedotime_spent=time_block{yield}#Tohandle-vesleepinteravalsleep(seconds-time_spent)iftime_spent
ruby-on-rails - 如果条件与 &&，是否有任何性能提升 - 2
如果用户是所有者，我有一个条件来检查说删除和文章。delete_articleifuser.owner?另一种方式是user.owner?&&delete_article选择它有什么好处还是它只是一种写作风格最佳答案性能不太可能成为该声明的问题。第一个要好得多-它更容易阅读。您future的自己和其他将开始编写代码的人会为此感谢您。关于ruby-on-rails-如果条件与&&，是否有任何性能提升，我们在StackOverflow上找到一个类似的问题：
ruby-on-rails - 获取 ActionController::RoutingError(当尝试使用 AngularJS 将数据发布到 Rails 服务器时，没有路由匹配 [OPTIONS] "/users" - 2
尝试从我的AngularJS端将数据发布到Rails服务器时出现问题。服务器错误:ActionController::RoutingError(Noroutematches[OPTIONS]"/users"):actionpack(4.1.9)lib/action_dispatch/middleware/debug_exceptions.rb:21:in`call'actionpack(4.1.9)lib/action_dispatch/middleware/show_exceptions.rb:30:in`call'railties(4.1.9)lib/rails/rack/logg
ruby - 如何找到我的 Ruby 应用程序中的性能瓶颈？ - 2
我编写了一个Ruby应用程序，它可以解析来自不同格式html、xml和csv文件的源中的大量数据。我如何找出代码的哪些区域花费的时间最长？有没有关于如何提高Ruby应用程序性能的好资源？或者您是否有任何始终遵循的性能编码标准？例如，你总是用加入你的字符串吗？output=String.newoutput或者你会使用output="#{part_one}#{part_two}\n" 最佳答案好吧，有一些众所周知的做法，例如字符串连接比“#{value}”慢得多，但是为了找出您的脚本在哪里消耗了大部分时间或比所需时间更多，您需要进行分
映宇宙2022年营收63亿元：同比下降三成，毛利率提升4.3个百分点 - 2
3月26日，映宇宙（HK:03700，即“映客”）发布截至2022年12月31日的2022年度业绩财务报告。财报显示，映宇宙2022年的总营收为63.19亿元，较2021年同期的91.76亿元下降31.1%。2022年，映宇宙的经营亏损为4698.7万元，2021年同期则为净利润4.57亿元；期内亏损（净亏损）为1.68亿元，2021年同期的净利润为4.33亿元；非国际财务报告准则经调整净利润为3.88亿元，2021年同期为4.82亿元，同比下降19.6%。映宇宙在财报中表示，收入减少主要是由于行业竞争加剧，该集团对旗下产品采取更为谨慎的运营策略以应对市场变化。不过，映宇宙的毛利率则有所提升
iNFTnews | 周杰伦18年前未发布的作品Demo，藏在了区块链技术里 - 2
当音乐碰上区块链技术，会擦出怎样的火花？或许周杰伦已经给了我们答案。8月29日下午，B站独家首发周杰伦限定珍藏Demo独家访谈VCR，周杰伦在VCR里分享了《晴天》《青花瓷》《搁浅》《爱在西元前》四首经典歌曲Demo背后的创作故事，并首次公布18年前未发布的神秘作品《纽约地铁》的Demo。在VCR中，方文山和杰威尔音乐提及到“多亏了区块链技术，现在我们可以将这些Demos，变成独一无二具有收藏价值的艺术品，这些Demos可以在薄盒（国内数藏平台）上听到。”如何将音乐与区块链技术相结合，薄盒方面称：“薄盒作为区块链技术服务方，打破传统对于区块链技术只能作为数字收藏的理解。聚焦于区块链技术赋能，在
STM32的HAL和LL库区别和性能对比 - 2
LL库和HAL库简介LL：Low-Layer，底层库HAL：HardwareAbstractionLayer，硬件抽象层库LL库和hal库对比，很精简，这实际上是一个精简的库。LL库的配置选择如下：在STM32CUBEMX中，点击菜单的“ProjectManager”–>“AdvancedSettings”，在下面的界面中选择“AdvancedSettings”，然后在每个模块后面选择使用的库总结：1、如果使用的MCU是小容量的，那么STM32CubeLL将是最佳选择；2、如果结合可移植性和优化，使用STM32CubeHAL并使用特定的优化实现替换一些调用，可保持最大的可移植性。另外HAL和L

腾讯发布新一代超强算力集群：面向大模型训练，性能提升 3 倍

有关腾讯发布新一代超强算力集群：面向大模型训练，性能提升 3 倍的更多相关文章

随机推荐