草庐IT

Meta新增两大万卡集群,投入近50000块英伟达H100 GPU

Meta日前推出两个功能强大的GPU集群,用于支持下一代生成式AI模型的训练,包括即将推出的Llama3。据悉,这两个数据中心的GPU数量均高达24,576块,专为支持比之前发布的更大、更复杂的生成式AI模型而构建。作为一种流行的开源算法模型,Meta的Llama能与OpenAI的GPT和Google的Gemini相媲美。Meta刷新AI集群规模 极客网了解到,这两个GPU集群都采用了英伟达当前功能最强大的H100GPU,并且比Meta之前推出的大型集群规模要大得多。此前Meta的集群约有16,000块NvidiaA100GPU。据报道,Meta为此抢购了数千块英伟达最新推出的GPU。调研机构

字节万卡集群技术细节公开:2天搞定GPT-3训练,算力利用率超英伟达Megatron-LM

随着对Sora技术分析的展开,AI基础设施的重要性愈发凸显。来自字节和北大的一篇新论文在此时吸引关注:文章披露,字节搭建起的万卡集群,能在1.75天内完成GPT-3规模模型(175B)的训练。具体来说,字节提出了一个名为MegaScale的生产系统,旨在解决在万卡集群上训练大模型时面临的效率和稳定性挑战。在12288块GPU上训练1750亿参数大语言模型时,MegaScale实现了55.2%的算力利用率(MFU),是英伟达Megatron-LM的1.34倍。论文还透露,截止2023年9月,字节已建立起超过1万张卡的Ampere架构GPU(A100/A800)集群,目前正在建设大规模Hopper

字节跳动 Spark 支持万卡模型推理实践

摘要:本文整理自字节跳动基础架构工程师刘畅和字节跳动机器学习系统工程师张永强在本次CommunityOverCodeAsia2023中的《字节跳动Spark支持万卡模型推理实践》主题演讲。背景介绍在云原生化的发展过程中Kubernetes由于其强大的生态构建能力和影响力,使得包括大数据、AI在内越来越多类型的负载应用开始向Kubernetes迁移,字节内部探索Spark从Hadoop迁移到Kubernetes对作业的云原生化运行。字节跳动的大数据资源管理架构和Spark的部署演进大致可分为三个阶段:第一个阶段是完全基于YARN的离线资源管理,通过大规模使用YARN管理大数据集群,可以有效提高S

万卡测试

万卡又来了,当然要记录了啊!上周是18号来的,刚好一个星期来一次,挺准时的,这段时间万卡的频率要低一点了,再低每个月还是要来两三次的。这个月抽中连载的次数要多一点了,数了数我的连载有九个,全都是转转盘转的,自己一个都没有开过,因为我也不写小说,所以连载对我来说也没有什么用,还不如来万卡。上次看念念做了一次测试,就是万卡来的时候全都点自己的旧文,说是收益要高一点,我今天也来测试一下。还没有给人点赞,明天给友友们补上,今天就先给自己的旧文点,看明天的收益如何,究竟点旧文的收益会不会高出很多,敬请明天揭晓。