昇腾910b

华为Ascend昇腾CANN详细教程（一）

一、参考资料基于昇腾CANN的推理应用开发快速体验（C++）基于昇腾CANN的推理应用开发——图片分类应用（C&C++）二、重要说明CANN软件提供进程级环境变量设置脚本，供用户在进程中引用，以自动完成环境变量设置。#例如/home/ma-user/Ascend/ascend-toolkit/set_env.sh物理机场景下，一个Device上最多只能支持64个用户进程，Host最多只能支持Device个数64个进程；虚拟机场景下，一个Device上最多只能支持32个用户进程，Host最多只能支持Device个数32个进程。不支持使用fork函数创建多个进程，且在进程中调用AscendCL接口

基于Pytorch+昇腾NPU开发大模型指导

1.昇腾开源分布式训练加速库AscendSpeed在昇腾上开发大模型，如果想有最快的迁移效率和最佳性能，推荐开发者基于AscendSpeed来迁移模型或者开发，AscendSpeed除了支持DeepSpeed和Megatron-LM的大模型特性以外（如3D并行，Zero等），还有一些昇腾亲和的优化特性，从而可以有更好的性能。目前AscendSpeed已经支持了LLaMA2，Baichuan，Bloom等主流大模型，并且已经正式开源。https://gitee.com/ascend/AscendSpeed2.通过Adapter方式支持Pytorch框架昇腾对Pytorch是基于Adapter的方

模型基于 xff0c xff0 xff pytorch 人工智能语言模型深度学习

昇腾Ascend处理器相关介绍

一、参考资料modelzoowiki解密昇腾AI处理器–Ascend310简介AI芯片：华为Ascend（昇腾）910结构分析解密昇腾AI处理器–DaVinci架构（计算单元）二、相关介绍1.达芬奇架构极智AI|一文看懂昇腾达芬奇架构计算单元1.1简介达芬奇架构本质上是为了适应某个特定领域中的常见应用和算法，通常称为特定域架构(DominSpecificArchitecture，DSA)。达芬奇架构包括三种基础计算资源：矩阵计算单元(CubeUnit)、向量计算单元(VectorUnit)和标量计算单元(ScalarUnit)。在实际的计算过程中各司其职，形成了三条独立的执行流水线，在系统软件

处理器处理 span class xff 人工智能华为昇腾 Ascend

昇腾CANN 7.0 黑科技：大模型推理部署技术解密

本文分享自华为云社区《昇腾CANN7.0黑科技：大模型推理部署技术解密》，作者：昇腾CANN。近期，随着生成式AI、大模型进入公众视野，越来越多的人意识到抓住AI的爆发就是抓住未来智能化变革的契机。AI基础设施如何快速部署使用，以及如何提升推理性能，逐渐成为众多企业关注的焦点。CANN作为最接近昇腾AI系列硬件产品的一层，通过软硬件联合设计，打造出适合昇腾AI处理器的软件架构，充分使能和释放昇腾硬件的澎湃算力。针对大模型推理场景，CANN最新发布的CANN7.0版本有机整合各内部组件，支持大模型的量化压缩、分布式切分编译、分布式加载部署，并在基础加速库、图编译优化、模型执行调度等方面针对大模型

解密推理模型计算切分 AI综合

昇腾CANN DVPP硬件加速训练数据预处理，友好解决Host CPU预处理瓶

本文分享自华为云社区《昇腾CANN7.0黑科技：DVPP硬件加速训练数据预处理，友好解决HostCPU预处理瓶颈》，作者：昇腾CANN。随着人工智能的快速发展，越来越多的应用场景需要使用机器学习和深度学习模型。AI网络模型的训练一般分成两个关键部分，一个是训练数据预处理，一个是模型训练，如何提升两者的处理性能成为提升模型训练性能的关键。一般情况下，数据加载预处理由hostCPU处理，而模型训练计算是在NPU或GPU上处理的，两者一般并行执行，因此训练一次迭代的时间通常是两个处理时间的最大值。在NPU/GPU上进行模型训练计算，为了充分使用计算资源，一般采用批量数据处理方式，因此一般情况下为提升

预处理友好 section span AI综合

昇腾迁移丨4个TensorFlow模型训练案例解读

本文分享自华为云社区《TensorFlow模型训练常见案例》，作者：昇腾CANN。基于TensorFlow的PythonAPI开发的训练脚本默认运行在CPU/GPU/TPU上，为了使这些脚本能够利用昇腾AI处理器的强大算力，需要将其迁移到昇腾平台。本期分享几个TensorFlow网络迁移到昇腾平台后执行失败或者执行性能差的典型案例，并给出原因分析及解决方法。01数据预处理中存在资源类算子，导致训练异常问题现象TensorFlow网络执行时，报如下错误：[2021-03-1913:50:24.895266:Wtensorflow/core/framework/op_kernel.cc:1651]

迁移 TensorFlow span color style AI综合

昇腾CANN 7.0 黑科技：大模型训练性能优化之道

本文分享自华为云社区《昇腾CANN7.0黑科技：大模型训练性能优化之道》，作者：昇腾CANN。目前，大模型凭借超强的学习能力，已经在搜索、推荐、智能交互、AIGC、生产流程变革、产业提效等场景表现出巨大的潜力。大模型经过海量数据的预训练，通常具有良好的通用性和泛化性。用户基于“大模型预训练+微调”开发范式即可在实际业务场景取得理想的效果。从经济成本和时间成本来看，预训练是构筑各种行业模型的主要部分，优化大模型预训练具有非常重要的意义。OpenAI研究表明：大模型表现好坏强烈依赖于模型规模，弱依赖于架构；模型表现随着计算量、数据量和参数量提升；模型表现随着训练数据量和参数量的提升是可预测的。总体

模型性能算子通信大模型

三步实现BERT模型迁移部署到昇腾

本文分享自华为云社区《bert模型昇腾迁移部署案例》，作者：AI印象。镜像构建1.基础镜像(由工具链小组统一给出D310P的基础镜像)Fromxxx2.安装mindspore2.1.0，假定whl包和tar包已经下载到本地，下载地址：https://www.mindspore.cn/lite/docs/zh-CN/r2.0/use/downloads.htmlADD./usr/local/RUNcd/usr/local&&\pipinstallmindspore_lite-2.1.0-cp37-cp37m-linux_x86_64.whl&&\tar-zxvfmindspore-lite-2

迁移部署 span color style AI综合

推出全新架构昇腾 AI 计算集群，支持超万亿参数大模型训练

9月20日消息，在今日举行的华为全联接大会2023期间，华为常务董事、ICT基础设施业务管理委员会主任、企业BG总裁汪涛正式发布全新架构的昇腾AI计算集群——Atlas900SuperCluster，可支持超万亿参数的大模型训练。据介绍，新集群采用了全新的华为星河AI智算交换机CloudEngineXH16800，借助其高密的800GE端口能力，两层交换网络即可实现2250节点（等效于18000张卡）超大规模无收敛集群组网。新集群同时使用了创新的超节点架构，大大提升了大模型训练能力。此外，发挥华为在计算、网络、存储、能源等领域的综合优势，从器件级、节点级、集群级和业务级全面提升系统可靠性，将大

集群万亿华为 span style 人工智能 AI 计算集群

AI重塑千行百业，华为云发布盘古大模型3.0和昇腾AI云服务

【中国，东莞，2023年7月7日】华为开发者大会2023（Cloud）7月7日在中国东莞正式揭开帷幕，并同时在全球10余个国家、中国30多个城市设有分会场，邀请全球开发者共聚一堂，就AI浪潮之下的产业新机会和技术新实践开展交流分享。在7日下午举行的大会主题演讲中，华为常务董事、华为云CEO张平安重磅发布盘古大模型3.0和昇腾AI云服务。其中，盘古大模型3.0围绕“行业重塑”“技术扎根”“开放同飞”三大创新方向，持续打造核心竞争力，为行业客户、伙伴及开发者提供更好的服务。昇腾AI云服务单集群提供2000PFlops算力，千卡训练30天长稳率达到90%，为业界提供稳定可靠的AI算力，让大模型触手可

盘古华为 xff0c xff0 xff 人工智能华为云盘古大模型大数据开发者

123 4 5