基于训练和推理场景下的MindStudio高精度对比

华为云开发者社区 2023-03-28 原文

摘要：MindStudio提供精度比对功能，支持Vector比对能力。

本文分享自华为云社区《【MindStudio训练营第一季】MindStudio 高精度对比随笔》，作者：Tianyi_Li。

训练场景下，迁移原始网络 (如TensorFlow、PyTorch) ，用于NPU上执行训练，网络迁移可能会造成自有实现的算子运算结果与用原生标准算子运算结果存在偏差。推理场景下， ATC模型转换过程对模型进行优化，包括算子消除、算子融合算子拆分，这些优化也可能会造成自有实现的算子运算结果与原生标准算子(如TensorFlow、ONNX、 Caffe ) 运算结果存在偏差。

为了帮助开发人员快速解决算子精度问题，需要提供自有实现的算子运算结果与业界标准算子运算结果之间进行精度差异对比的工具。

对策:

精度比对工具能够帮助开发人员定位本次任务两个网络间的精度差异。准备好昇腾腾AI处理器运行生成的dump教据与Ground Truth数据 (基于GPU/CPU运行生成的数据)后，即可进行不同算法评价指标的数据比对。

MindStudio提供精度比对功能，支持Vector比对能力，支持下列算法：

余弦相似度
最大绝对误差
累积相对误差
欧氏相对距离
KL散度…

精度比对根据推理/训练和不同的框架分为多个比对场景。

原始模型数据即为原始网络在GPU/CPU侧生成的数据，主要依赖原始框架中的源生能力，将模型中每一个算子节点的输入输出数据进行保存。

NPU模型数据即为通过对原始模型的迁移或训练在县腾A处理器上得到的数据，主要依赖华为侧提供对应用推理及训练提供的Dump能力，将模型中每一个算子节点的输入输出数据进行保存。

由于MindStudio精度比对工具的使用约束，数据需要满足以下格式:

原始模型数据准备

以TensorFlow为例

在进行TensorFlow模型生成npy数据前，您需要已经有一套完整的、可执行的、标准的TensorFlow模型应用工程。然后利用TensorFlow官方提供的debug工具tfdbg调试程序，从而生成npy文件。通常情况下，TensorFlow的网络实现方式主要分为Estimator模式和session.run模式，具体操作如下:

1.修改tf训练脚本，添加debug选项设置

2.执行推理或训练脚本，任务运行到前面debug配置后暂停

3.进入调试命令行交互模式后,

3.1 输入run命令，训练会往下执行一个step
3.2 执行lt >tensor name将所有tensor的名称暂存到文件里，在另一个窗口，在Linux命令下执行下述命令，用以生成在tfdbg命令行执行的命令:

timestamp=$[S(date +%s%N)/1000] ; cat tensor name | awk 'print "pt",$4,$4)' | awk '[gsub("/", ""$3);gsub("""" $3);print($1,$2,"-n 0 -w "$3"stimestamp"""npy")y' > tensor name cmd.txt

3.3 将上一步生成的tensor name cmd.txt文件内容粘贴执行，即可存储所有npy文件，实现训练数据的Dump。

注: 更加详细操作见《CANN开发辅助工具指南》中“精度比对工具使用指南”章节。

NPU模型数据准备

以推理场景为例

推理场景数据准备一NPU的融合后推理数据NPU采用AscendCL完成离线推理:

1.在代码中调用acllnit(“./acl.json”)

acl.json的文件内容如下:

2.运行推理应用，生成dump数据

以训练场景为例

训练场景数据准备-NPU的迁移后网络训练数据

以TensorFlow为例，步骤如下：

1.设置“DUMP GE GRAPH=2”生成计算图文件，同时修改训练脚本，开启dump功能

2.执行训练脚本，生成dump数据和计算图文件

计算图文件:“ge”开头的文件，存储在训练脚本所在目录
dump数据文件: 生成在dump path指定的目录下，即(dump path)/time)/(deviceid)/(model name)/(model id)/(data index) 。

3.选取计算图文件

可使用grep lterator* Build.txt命令快速查找出的计算图文件名称，如ge proto 00005 Build.txt.

4.选取dump数据文件

打开上述计算图文件，找出第一个graph中的name字段，即为dump文件存放目录名称。

精度对比工具使用方法

创建对比任务

将准备好的标准数据文件与待比对数据文性作为输入文件，并配置对应的离线模型文件，通过对文件内所有参与计算的算子输入与输出进行精度比对。

整网比对在MindStudio界面菜单栏洗择“Ascend > Model Accuracy Analvzer > New Task菜单，进入比对界面。

整网对比结果

整网比对结果主要分为四大展示模块:

整网对比结果表；
精度散点图;
模型可视化:
精度专家建议

精度比对工具本身只提供自有实现算子在昇腾AI处理器上的运算结果与业界标准算子的运算结果的差异比对功能，而输出的比对结果需要用户自行分析并找出问题。而对结果的分析工作对于用户来说也是一大难点，而专家系统工具为用户提供精度比对结果的结果分析功能，有效减少用户排查问题的时间。只需在比对操作配置任务时勾选“Advisor”选项，系统则会在比对完成后自动进行结果文件的分析，并输出优化建议。

当前支持的分析检测类型有：FP16溢出检测、输入不一致检测、整网一致性检测（整网一致性检测包括：问题节点检测、单点误差检测和一致性检测三个小点）

这里特别说明下FP16溢出检测，针对比对数据中数据类型为FP16的数据，进行溢出检测。如果存在溢出数据，输出专家建议，示例图如下所示。

专家系统分析结果：
Detection Type: FP16 overflow
Operator Index: 228
Expert Advice: Float16 data overflow occurs. Rectify the fault and perform comparison again.
检测类型：FP16溢出检测
Operator Index：228
专家建议：存在Float16数据溢出，请修正溢出问题，再进行比对。

单算子对比

可针对整网任务中的某个算子进行单算子比对，分析某个算子的具体精度差异。

使用约束

精度比对功能不支持打开多个工程同时进行比对，可以先完成一个比对程序后再进行下一个。
精度比对支持的dump数据的类型：

FLOAT
FLOAT16
DT_INT8
DT_UINT8
DT_INT16
DT_UINT16
DT_INT32
DT_INT64
DT_UINT32
DT_UINT64
DT_BOOL
DT_DOUBLE

特别说明

dump文件无法通过文本工具直接查看其内容，为了查看dump文件内容，需要用脚本将dump文件转换为numpy格式文件后，再通过numpy官方提供的能力转为txt文档进行查看。脚本在/home/HwHiAiUser/Ascend/ascend-toolkit/latest/tools/operator_cmp/compare目录，名为msaccucmp.py。举例用法如下：

python3 msaccucmp.py convert -d dump_file [-out output] [-f format -s shape] [-o output_tensor] [-i input_tensor] [-v version] [-t type]

调用Python，转换numpy文件为txt文件的完整示例如下：

$ python3
>>> import numpy as np
>>> a = np.load("/home/HwHiAiUser/dumptonumpy/Pooling.pool1.1147.1589195081588018.output.0.npy")
>>> b = a.flatten()
>>> np.savetxt("/home/HwHiAiUser/dumptonumpy/Pooling.pool1.1147.1589195081588018.output.0.txt", b)

但转换为.txt格式文件后，维度信息、Dtype均不存在。详细的使用方法请参考numpy官网介绍。

总结

精度对比总计分为环境准备、数据准备和对比三步。

数据准备要根据推理场景和训练场景分别分析：

推理场景：准备第三方框架原始模型的npy数据文件与离线模型的dump数据文件。
训练场景：准备基于GPU运行生成的第三方框架原始训练网络npy数据文件与基于昇腾AI处理器运行生成的训练网络dump数据和计算图文件。

准备后上述步骤，可进行对比：

执行整网比对操作。
开启MindStudio的“Ascend > Model Accuracy Analyzer”功能，将准备好的比对数据文件配置到对应参数下并配置具体比对参数。
MindStudio执行比对操作并输出比对结果。
比对结果专家建议（可选）。请参见比对结果专家建议。
根据分析结果定位具体问题算子。
执行单算子比对操作。
分析单算子具体问题。

最后说下Tensor比对，Tensor对比提供整网比对和单算子比对两种精度比对方式，需要根据比对场景选择比对方式。其中，整网比对：将准备好的标准数据文件与待比对数据文件作为输入文件，通过对文件内所有参与计算的算子进行精度比对。而单算子比对：在整网比对的基础上指定具体算子名，对单个算子进行详细数据的比对。

个人认为，精度对比这是一个需要时间、精力和经验的操作，要充分利用好MindStudio工具，或查文档，或提问，可大大降低我们的工作量，提高效率。但是不得不说，这是需要一定经验的，还是要多看多学习，多试多问啊。

点击关注，第一时间了解华为云新鲜技术~

高精高精度 data data-pid pid 人工智能

有关基于训练和推理场景下的MindStudio高精度对比的更多相关文章

叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
基于C#实现简易绘图工具【100010177】 - 2
C#实现简易绘图工具一.引言实验目的:通过制作窗体应用程序(C#画图软件),熟悉基本的窗体设计过程以及控件设计,事件处理等,熟悉使用C#的winform窗体进行绘图的基本步骤,对于面向对象编程有更加深刻的体会.Tutorial任务设计一个具有基本功能的画图软件**·包括简单的新建文件,保存,重新绘图等功能**·实现一些基本图形的绘制,包括铅笔和基本形状等,学习橡皮工具的创建**·设计一个合理舒适的UI界面**注明:你可能需要先了解一些关于winform窗体应用程序绘图的基本知识,以及关于GDI+类和结构的知识二.实验环境Windows系统下的visualstudio2017C#窗体应用程序三.
「Python｜Selenium｜场景案例」如何定位iframe中的元素？ - 2
本文主要介绍在使用Selenium进行自动化测试或者任务时，对于使用了iframe的页面，如何定位iframe中的元素文章目录场景描述解决方案具体代码场景描述当我们在使用Selenium进行自动化测试的时候，可能会遇到一些界面或者窗体是使用HTML的iframe标签进行承载的。对于iframe中的标签，如果直接查找是无法找到的，会抛出没有找到元素的异常。比如近在咫尺的例子就是，CSDN的登录窗体就是使用的iframe，大家可以尝试通过F12开发者模式查看到的tag_name,class_name,id或者xpath来定位中的页面元素，会抛出NoSuchElementException异常。解决
kvm虚拟机安装centos7基于ubuntu20.04系统 - 2
需求：要创建虚拟机，就需要给他提供一个虚拟的磁盘，我们就在/opt目录下创建一个10G大小的raw格式的虚拟磁盘CentOS-7-x86_64.raw命令格式：qemu-imgcreate-f磁盘格式磁盘名称磁盘大小qemu-imgcreate-f磁盘格式-o?1.创建磁盘qemu-imgcreate-fraw/opt/CentOS-7-x86_64.raw10G执行效果#ls/opt/CentOS-7-x86_64.raw2.安装虚拟机使用virt-install命令，基于我们提供的系统镜像和虚拟磁盘来创建一个虚拟机，另外在创建虚拟机之前，提前打开vnc客户端，在创建虚拟机的时候，通过vnc
[工业相机] 分辨率、精度和公差之间的关系 - 2
📢博客主页：https://blog.csdn.net/weixin_43197380📢欢迎点赞👍收藏⭐留言📝如有错误敬请指正！📢本文由Loewen丶原创，首发于CSDN，转载注明出处🙉📢现在的付出，都会是一种沉淀，只为让你成为更好的人✨文章预览：一.分辨率（Resolution）1、工业相机的分辨率是如何定义的？2、工业相机的分辨率是如何选择的？二.精度（Accuracy）1、像素精度（PixelAccuracy）2、定位精度和重复定位精度（RepeatPrecision）三.公差（Tolerance）四.课后作业（Post-ClassExercises）视觉行业的初学者，甚至是做了1~2年
ruby-on-rails - ruby on rails 模型验证中的浮点精度 - 2
我正在尝试使用正则表达式验证美元金额:^[0-9]+\.[0-9]{2}$这工作正常，但每当用户提交表单并且美元金额以0(零)结尾时，ruby(或rails？)将0砍掉。所以500.00变成500.0，因此正则表达式验证失败。有没有办法让ruby/rails保持用户输入的格式，而不管尾随零？最佳答案我假设您的美元金额是小数类型。因此，用户在字段中输入的任何值在保存到数据库之前都会从字符串转换为适当的类型。验证适用于已转换为数字类型的值，因此在您的情况下，正则表达式并不是真正合适的验证过滤器。不过，您有几种可能性可以解决这个问
ruby-on-rails - (Ruby,Rails) 基于角色的身份验证和用户管理...？ - 2
我正在寻找用于Rails的优质管理插件。似乎大多数现有的插件/gem(例如“restful_authentication”、“acts_as_authenticated”)都围绕着self注册等展开。但是，我正在寻找一种功能齐全的基于管理/管理角色的解决方案——但不是简单地附加到另一个非基于角色的解决方案。如果我找不到，我想我会自己动手......只是不想重新发明轮子。最佳答案 RyanBates最近做了两个关于授权的railscast(注意身份验证和授权之间的区别；身份验证检查用户是否如她所说的那样，授权检查用户是否有权访问资源
ruby - 在 Rakefile 中动态生成 Rake 测试任务(基于现有的测试文件) - 2
我正在根据Rakefile中的现有测试文件动态生成测试任务。假设您有各种以模式命名的单元测试文件test_.rb.所以我正在做的是创建一个以“测试”命名空间内的文件名命名的任务。使用下面的代码，我可以用raketest:调用所有测试require'rake/testtask'task:default=>'test:all'namespace:testdodesc"Runalltests"Rake::TestTask.new(:all)do|t|t.test_files=FileList['test_*.rb']endFileList['test_*.rb'].eachdo|task|n
ruby - 如何使用 Ruby 基于字母数字字符串生成颜色？ - 2
我想要像“嘿那里”这样的东西变成，例如，#316583。我希望将任意长度的字符串“归结”为十六进制颜色。我不知道从哪里开始。我在想，每个字符串的MD5散列都是不同的-但如何将该散列转换为十六进制颜色数字？最佳答案你可以只取几位前几位:require'digest/md5'color=Digest::MD5.hexdigest('Mytext')[0..5] 关于ruby-如何使用Ruby基于字母数字字符串生成颜色？，我们在StackOverflow上找到一个类似的问题：
【自动驾驶环境感知项目】——基于Paddle3D的点云障碍物检测 - 2
文章目录1.自动驾驶实战：基于Paddle3D的点云障碍物检测1.1环境信息1.2准备点云数据1.3安装Paddle3D1.4模型训练1.5模型评估1.6模型导出1.7模型部署效果附录show_lidar_pred_on_image.py1.自动驾驶实战：基于Paddle3D的点云障碍物检测项目地址——自动驾驶实战：基于Paddle3D的点云障碍物检测课程地址——自动驾驶感知系统揭秘1.1环境信息硬件信息CPU:2核AI加速卡:v100总显存:16GB总内存:16GB总硬盘:100GB环境配置Python:3.7.4框架信息框架版本:PaddlePaddle2.4.0（项目默认框架版本为2.3