草庐IT

昇腾Ascend处理器相关介绍

一、参考资料modelzoowiki解密昇腾AI处理器–Ascend310简介AI芯片:华为Ascend(昇腾)910结构分析解密昇腾AI处理器–DaVinci架构(计算单元)二、相关介绍1.达芬奇架构极智AI|一文看懂昇腾达芬奇架构计算单元1.1简介达芬奇架构本质上是为了适应某个特定领域中的常见应用和算法,通常称为特定域架构(DominSpecificArchitecture,DSA)。达芬奇架构包括三种基础计算资源:矩阵计算单元(CubeUnit)、向量计算单元(VectorUnit)和标量计算单元(ScalarUnit)。在实际的计算过程中各司其职,形成了三条独立的执行流水线,在系统软件

昇腾CANN 7.0 黑科技:大模型推理部署技术解密

本文分享自华为云社区《昇腾CANN7.0黑科技:大模型推理部署技术解密》,作者:昇腾CANN。近期,随着生成式AI、大模型进入公众视野,越来越多的人意识到抓住AI的爆发就是抓住未来智能化变革的契机。AI基础设施如何快速部署使用,以及如何提升推理性能,逐渐成为众多企业关注的焦点。CANN作为最接近昇腾AI系列硬件产品的一层,通过软硬件联合设计,打造出适合昇腾AI处理器的软件架构,充分使能和释放昇腾硬件的澎湃算力。针对大模型推理场景,CANN最新发布的CANN7.0版本有机整合各内部组件,支持大模型的量化压缩、分布式切分编译、分布式加载部署,并在基础加速库、图编译优化、模型执行调度等方面针对大模型

昇腾CANN DVPP硬件加速训练数据预处理,友好解决Host CPU预处理瓶

本文分享自华为云社区《昇腾CANN7.0黑科技:DVPP硬件加速训练数据预处理,友好解决HostCPU预处理瓶颈》,作者:昇腾CANN。随着人工智能的快速发展,越来越多的应用场景需要使用机器学习和深度学习模型。AI网络模型的训练一般分成两个关键部分,一个是训练数据预处理,一个是模型训练,如何提升两者的处理性能成为提升模型训练性能的关键。一般情况下,数据加载预处理由hostCPU处理,而模型训练计算是在NPU或GPU上处理的,两者一般并行执行,因此训练一次迭代的时间通常是两个处理时间的最大值。在NPU/GPU上进行模型训练计算,为了充分使用计算资源,一般采用批量数据处理方式,因此一般情况下为提升

昇腾迁移丨4个TensorFlow模型训练案例解读

本文分享自华为云社区《TensorFlow模型训练常见案例》,作者:昇腾CANN。基于TensorFlow的PythonAPI开发的训练脚本默认运行在CPU/GPU/TPU上,为了使这些脚本能够利用昇腾AI处理器的强大算力,需要将其迁移到昇腾平台。本期分享几个TensorFlow网络迁移到昇腾平台后执行失败或者执行性能差的典型案例,并给出原因分析及解决方法。01数据预处理中存在资源类算子,导致训练异常问题现象TensorFlow网络执行时,报如下错误:[2021-03-1913:50:24.895266:Wtensorflow/core/framework/op_kernel.cc:1651]

昇腾CANN 7.0 黑科技:大模型训练性能优化之道

本文分享自华为云社区《昇腾CANN7.0黑科技:大模型训练性能优化之道》,作者:昇腾CANN。目前,大模型凭借超强的学习能力,已经在搜索、推荐、智能交互、AIGC、生产流程变革、产业提效等场景表现出巨大的潜力。大模型经过海量数据的预训练,通常具有良好的通用性和泛化性。用户基于“大模型预训练+微调”开发范式即可在实际业务场景取得理想的效果。从经济成本和时间成本来看,预训练是构筑各种行业模型的主要部分,优化大模型预训练具有非常重要的意义。OpenAI研究表明:大模型表现好坏强烈依赖于模型规模,弱依赖于架构;模型表现随着计算量、数据量和参数量提升;模型表现随着训练数据量和参数量的提升是可预测的。总体

三步实现BERT模型迁移部署到昇腾

本文分享自华为云社区 《bert模型昇腾迁移部署案例》,作者:AI印象。镜像构建1.基础镜像(由工具链小组统一给出D310P的基础镜像)Fromxxx2.安装mindspore2.1.0,假定whl包和tar包已经下载到本地,下载地址:https://www.mindspore.cn/lite/docs/zh-CN/r2.0/use/downloads.htmlADD./usr/local/RUNcd/usr/local&&\pipinstallmindspore_lite-2.1.0-cp37-cp37m-linux_x86_64.whl&&\tar-zxvfmindspore-lite-2

推出全新架构昇腾 AI 计算集群,支持超万亿参数大模型训练

9月20日消息,在今日举行的华为全联接大会2023期间,华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛正式发布全新架构的昇腾AI计算集群——Atlas900SuperCluster,可支持超万亿参数的大模型训练。据介绍,新集群采用了全新的华为星河AI智算交换机CloudEngineXH16800,借助其高密的800GE端口能力,两层交换网络即可实现2250节点(等效于18000张卡)超大规模无收敛集群组网。新集群同时使用了创新的超节点架构,大大提升了大模型训练能力。此外,发挥华为在计算、网络、存储、能源等领域的综合优势,从器件级、节点级、集群级和业务级全面提升系统可靠性,将大

AI重塑千行百业,华为云发布盘古大模型3.0和昇腾AI云服务

【中国,东莞,2023年7月7日】华为开发者大会2023(Cloud)7月7日在中国东莞正式揭开帷幕,并同时在全球10余个国家、中国30多个城市设有分会场,邀请全球开发者共聚一堂,就AI浪潮之下的产业新机会和技术新实践开展交流分享。在7日下午举行的大会主题演讲中,华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中,盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向,持续打造核心竞争力,为行业客户、伙伴及开发者提供更好的服务。昇腾AI云服务单集群提供2000PFlops算力,千卡训练30天长稳率达到90%,为业界提供稳定可靠的AI算力,让大模型触手可

纯干货!一文get昇腾Ascend C编程入门全部知识点

本文分享自华为云社区《昇腾AscendC编程入门教程》,作者:昇腾CANN。2023年5月6日,在昇腾AI开发者峰会上,华为正式发布了面向算子开发场景的昇腾AscendC编程语言。AscendC原生支持C/C++编程规范,通过多层接口抽象、并行编程范式、孪生调试等技术,极大提高了算子的开发效率,帮助AI开发者低成本完成算子开发和模型调优部署。昇腾AI软硬件基础和CUDA开发的算子运行在GPU上一样,基于AscendC开发的算子,可以通过异构计算架构CANN(ComputeArchitectureforNeuralNetworks)运行在昇腾AI处理器(可简称NPU)上。CANN是使能昇腾AI处

【大模型系列 06】LLaMA-7B/13B for PyTorch 昇腾迁移

源码链接https://gitee.com/ascend/ModelZoo-PyTorch/tree/master/PyTorch/built-in/foundation/LLaMA-13BLLaMA-7B/13BforPyTorch概述简述LLaMA是由MetaAI发布的大语言系列模型,完整的名字是LargeLanguageModelMetaAI。LLaMA按照参数量的大小分为四个型号:LLaMA-7B、LLaMA-13B、LLaMA-30B与LLaMA-65B。LLaMA模型的效果极好,LLaMA-13B在大多数基准测试中的表现都优于GPT-3(175B),且无需使用专门的数据集,只使用公