TOPS(处理器运算能力单位)
芯片的算力到底有什么用?算力是怎么评估的?
NPU架构与算力分析
FLOPS(floating-point operations per second)表示“每秒所执行的浮点运算次数”。它常被用来估算电脑的执行效能,尤其是在使用到大量浮点运算的科学计算领域中。正因为FLOPS字尾的那个S,代表秒,而不是复数,所以不能省略掉。
1PFLOPS=1024TFLOPS
1TFLOPS=1024GFLOPS
1GFLOPS=1024MFLOPS
一个MFLOPS(megaFLOPS)等于每秒一百万(=10^6)次的浮点运算;
一个GFLOPS(gigaFLOPS)等于每秒十亿(=10^9)次的浮点运算;
一个TFLOPS(teraFLOPS)等于每秒一万亿(=10^12)次的浮点运算;
一个PFLOPS(petaFLOPS)等于每秒一千万亿(=10^15)次的浮点运算;
TOPS(Tera Operations Per Second)表示”每秒操作次数“,1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作。
OPS与FLOPS类似,只不过OPS一个是操作次数,FLOPS一个是浮点操作次数。OPS是操作数量,FLOPS为浮点操作数量,通常情况下,FLOPS比OPS稍大。如果按照FP16衡量标准,两者可近似于相等。
传统的GPU采用GFLOPS,NPU的时代为了支持AI计算,采用TOPS。

算力是芯片单位时间里处理数据的能力,算力越高,单位时间里处理的数据量越大。简单理解,算力就是芯片解决某一个领域问题时单位时间内所能计算的次数。
第一是是算力可以用客观的数据去衡量,比如说常见的 GFLOPS 也就是每秒十亿/十亿(109)次的浮点运算) , TFLOPS 则是等于每秒一兆/一万亿(1012)次的浮点运算,PFLOPS(petaFLOPS)等于每秒一千兆/一千万亿(1015)次的浮点运算;
第二则是算力限定了领域,不同类型的芯片有自己侧重的场景,没必要跨领域对比,不同测试方法的结果也不太能直接横向对比。
所以要确定不同精度算力的性能,需通过各自领域内的专用测试程序来测试:比如说测超算有 Linpack 主要考察平台的双精度浮点算力;测人工智能应用性能的 Resnet-50 更看重的是半精度算力。
低标准下的高算力是比不上高标准下的低算力的,比如INT4标准下的100TOPS算力是要远弱于INT8标准下的90TOPS的。高标准下高算力,才能称之为强算力芯片。
评估AI芯片算力的常见单位是OPS,意为每秒执行的操作(operation)数量。不同于CPU和GPU等通用处理器,在单个时钟周期下的可执行操作数量很低;AI芯片通过设计特殊的计算单元,实现了超高的操作数量。
例如谷歌的初代TPU,其256x256的脉动阵列,在单个时钟周期下可执行65536个操作数量。由于其乘法单元是8bit的,主频700MHz,故算力为int8@65536x(1+1)700MHz=92Tops。其中1+1分别代表1次加法操作和1次乘法操作。


Orin芯片
蔚来汽车,其首款轿车ET7宣布,该车型搭载4颗英伟达Orin芯片,其制造工艺竟然达到7nm,总算力甚至高达1016TOPS。蔚来CEO李斌还断言,未来高端智能电动汽车新的定义标准为马力和算力。
而当下热门特斯拉FSD ,采用的制造工艺为14nm,其算力为144TOPS。两家主机厂不同产品的算法相差接近10倍,可想而知算力的竞赛有多激烈。蔚来CEO李斌还断言,未来高端智能电动汽车新的定义标准为马力和算力。
华山二号A1000芯片
黑芝麻智能发布的华山二号A1000系列,这款自动驾驶计算芯片已经正式通过AEC-Q100 Grade 2级别的车规认证。

黑芝麻智能发布的华山二号A1000系列,这款自动驾驶计算芯片已经正式通过AEC-Q100 Grade 2级别的车规认证。

| 芯片名称 | 芯片类型 | 衡量标准 | 算力 |
|---|---|---|---|
| 华为麒麟980 | 4.2TOPS | ||
| 华为麒麟970 | 1.92TOPS |
| 芯片名称 | 芯片类型 | 衡量标准 | 算力 |
|---|---|---|---|
| OPPO MariSilicon X | NPU | INT8 | 18TOPS |
| 芯片名称 | 芯片类型 | 衡量标准 | 算力 |
|---|---|---|---|
| 苹果A15 | INT8 | 15.8TOPS | |
| 苹果A14 | INT8 | 11TOPS | |
| 苹果A13 | INT8 | 6TOPS | |
| 苹果A12 | INT8 | 5TOPS | |
| 芯片名称 | 芯片类型 | 衡量标准 | 算力 |
|---|---|---|---|
| 骁龙888 | INT8 | 26TOPFS | |
| 骁龙870 | INT8 | 15TOPFS | |
| 骁龙865 | INT8 | 15TOPFS | |
| 骁龙855 | INT8 | 7TOPFS | |
| 骁龙8 Gen1芯片 | INT8 | 6TOPFS | |
| 芯片名称 | 芯片类型 | 衡量标准 | 算力 |
|---|---|---|---|
| 联发科天玑1200 | 15TOPFS | ||
| 联发科天玑1000 | 4.5TOPFS | ||
骁龙888、苹果A15都是系统级的芯片。
除开自动驾驶,深度学习在手机拍照方面先行者Google也有很多探索,Google在2017年的Pixel 2就加入了Pixel Visual Core,PVC严格的说只能算是特殊领域专属架构(Domain-Specific Architecture)的ISP,但还不能算是NPU(Neural Processing Unit 神经网络处理器),直到2019年的Pixel 4搭载的Pixel Neural Core才能算是真正的神经网络处理器。
OPPO的马里亚纳X(MariSillicon X)是全球首个移动端6nm影像专用NPU,拥有出色的AI算力和超高的能效比,在INT8标准下,MariSilicon X的算力达到了18TOPS,超过了苹果A15芯片,是目前已经公布的INT8量化标准下的手机NPU算力最高的,是行业共识的INT8标准下的的第一算力。而应用到实际场景下的能效,每瓦性能也达到了11.6TOPS,这基本也是手机NPU能效的里程碑了。
马里亚纳X不同于骁龙Gen 1或者天机9000那样SoC片上内置NPU ,而是一个整合NPU和ISP(Image Signal Processor 图像信号处理器)功能的独立芯片。和Pixel Neural Core比较类似,这个芯片位于SoC的前端,在CMOS和SoC之间,这样图片数据在进入SoC之前就可以进行预处理。

马里亚纳X的ISP部分率先支持20bit的超高动态范围,而高通骁龙8 Gen 1和天玑9000都仅能支持18Bit,20Bit相比18Bit有更高的画面宽容度,此外Find X5 Pro的RGBW像素传感器的RGB和W分隔处理也是由ISP完成。
ISP初步处理好的数据再通过NPU进行降噪和HDR处理,提升画面的高感和宽容度表现(具体的方式应该和前面提及Google HDR算法差不多)。并且进行这个HDR处理的并不只是针对的单帧照片,不能等待拍摄完再慢悠悠转圈圈,而是需要实时处理4K30的超高清视频,有更高的实时性需求。

骁龙888的内置NPU 4K处理性能只有2FPS,基本是幻灯片级别。而在使用马里亚纳X的NPU之后,40FPS的性能就可以满足实时处理4K30视频HDR的性能需要。

能够实现4K30的实时HDR处理,是需要由马里亚纳X高达18 TOPS的INT8精度的算力来支撑的。

马里亚纳X有18TOPS的INT8算力,是明显高于前面介绍Google Tensor的5.7 TOPS,也要高于iPhone 13搭载A15的15.8 TOPS,骁龙8 Gen1和天玑9000的INT 8性能数据官方并没明确说明,这里就不做比较。但马里亚纳X同SoC内的NPU并不是抢占或者排他关系,而是可以分工负责流程处理不同的阶段,达成合作共赢。
除开马里亚纳X,其他手机或者独立芯片设计公司发布的NPU或ISP也都会宣告算力数据。无论是开发人员还是用户,面对算力数据的时候要有量化指标,一般是INT8或者INT16,少部分会使用INT4,实际上我们看全球大多数芯片公司的宣发,绝大多数会采用INT8或者INT16量作为指标。因为INT4算正负标识只能表示-8到7的整数,不算则是0-15的整数,能够实现的精度和范围太低,在神经网络中使用有比较大的限制,即使可以转到更小的神经网络也会有性能损失。
手机同车机的NPU虽然在架构方面差不多,但在具体需求上还是有不同:车机的NPU由于供电和散热都有更大冗余,对于功耗控制就没有敏感,就可以用相对落后的工艺,比如前面说的Tesla的FSD和海思的MC810都是采用的14/16nm工艺;而手机对于功耗也更为敏感,在马里亚纳X是采用的台积电先进6nm工艺。TSMC N6是N7节点的改良工艺,相比14/16nm在相同性能的情况,功耗大概要低上2/3。

N6先进工艺加持再加上专用电路的效率优势,使用马里亚纳X功耗仅为传统芯片的47%,再考虑20倍的性能差距,马里亚纳X有接近骁龙888的内置NPU的50倍效能比。更高的 FPS可以提供更为流畅的预览和拍摄性能,更高的效能比可以大幅降低手机拍摄时候的发热和电力消耗,这些改变都是可以大幅提升用户拍摄时候的使用体验的。
流片
OPPO的产品经理曾经介绍马里亚纳X的台积电6nm工艺流片费用超过人民币一亿元,流片的意思是将芯片生产全要素流程完整走一遍的试生产,如果不顺利需要反复调整这个成本还会更高,之前华为海思9000作为5nm首发试验的流片费用传说更是高达3亿。所以OPPO刚刚宣布要给TSMC下1000万片的订单,有效降低单片成本。而且马里亚纳X并不像有些厂商的“自主研发芯片”更像是贴牌冠名,马里亚纳X从芯片IP设计到算法,都是依靠自己组建的团队完全自主一步一步踏踏实实的走出来的,再加上量产封装测试的成本,马里亚纳X早期成本是非常贵的。另外,之前和他们聊的时候,听说早期他们本来采用的是12nm工艺的方案,后来觉得没啥用,做出来的时候SOC都可能进化到4nm甚至更先进了,所以下决心直接从6nm出发。
马里亚纳X的定位是影像专用NPU,特殊领域专属架构DSA使得其比较封闭,第三方应用是很难调用的,这样并不利于整体生态的发展。因此欧加集团的自研路线应该会和Google从Pixel Visual Core到Google Tensor的路线相近,先从马里亚纳X这样的特殊领域专属架构开始,在研发和运营过程中积累经验/培养团队,后续的最终目标还是作为Fabless(无晶圆生产能力的设计公司)研发独立设计的整体SoC,并形成完整的从硬到软的生态。
UV域与RAW域
在马里亚纳芯片加入后,OPPO做了另一件很重要的事儿,把计算摄影从UV域提前到了RAW域。

手机图片的处理,一般会经历三个过程:原始的RAW文件采集,转成RGB信号,再转成YuV信号编码,目前主流的手机HDR算法都是在YuV上进行的。
熟悉摄影的朋友应该知道,我们一般使用的图片是JEPG格式的,但如果是需要后期修图,则一般是用RAW文件,它能够记录更多的原始信息,图片后期处理本质就是算法,而算法输出结果和记录的原始信息是息息相关的,这就相当于极度保鲜的食材,越好的食材,越能够做出美味。
越是前端原始素材,它的细节保留越多,在处理的时候,能够用的信息就越多,OPPO在SoC的前端直接在RAW上做HDR,效果一定是最好的。

FP32是32位的二进制数,除开第一位(蓝色)是标明正负,除开后23位尾数(黄色),还有8位指数位(绿色)来提升数值范围和精度。传统以图像渲染为目标任务的GPU就是主要针对FP32来设计,流处理器的结构就十分复杂。
上面的图表我有写明具体转换算法,有兴趣的话,大家可以用下面链接的浮点转换器试试,就可以有更为深刻的理解:
浮点转换器:IEEE-754 Floating Point Converter
深度学习主要用到的是整型的INT8,甚至是更低精度范围的INT4。INT8除开第一位正负标识,后面的7位就说只能区分2的7次方即128个整数,再加上正负,也就-128到127一共256个数据(如果不算正负,那是0-255,也是256个数据)。但也就是这样的数据范围和精度,对于大多深度学习神经网络而言也是基本够用的。INT8能够更好的兼顾效率和泛用性,行业内的无论是intel的OpenVINO和NVIDIA的TensorRT应用都是以INT8为主。用INT4标注只是算力数值大比较好看而已,INT8的算力数据才是有更大的实用价值。
说明:传统GPU流处理器占大头的FP32部分是针对图像任务设计(Maxwell以前GPU和A100/H100这样的专业卡还有更高精度的FP64),对于大多深度学习任务而言就是多余的,仅仅只用的上少数的INT32。因此用传统GPU跑还不如用更多更小的纯INT计算单元来跑深度学习,这样来的性能更好,效率更高,成本更低,这也就是前面那些车企都不约而同选择专用神经网络处理器的原因。
个别场合里可以使用 INT4,个别场合就是指对准确度和安全性要求相对较低的情况,毕竟 INT4 在有符号的情况下所能提供的正数数值范围只有 0 到 7、负数范围是 -7 到 -1,无符号时的正数范围是 0 到 15,其数值范围相当有限,当卷积核有负值或者之后归一化的时候,INT4 就会捉襟见肘。
**目前在学术研究和业界实践中,INT8是个性能和精度的良好折衷。**例如Intel的OpenVINO和Nvidia的TensorRT推理加速框架,以及谷歌的Coral Edge TPU套件,对神经网络模型量化精度都优选了INT8,而且对CNN等常见神经网络模型的实际转换效果可以做到性能近似无损。 也因此,各类人工智能芯片基本都支持INT8。不管是隔壁华为海思,还是Intel家的FPGA,还是寒武纪,还是英伟达,在芯片算力上都标注了INT8。

模型量化的原理
通过一系列算法将神经网络模型的权值、激活值等从高精度转化成低精度,在定点与浮点等数据类型之间建立一种映射关系,目标是以较小的精度损失代价获得较大的收益:减少内存带宽和存储空间需求、提高系统吞吐量、降低系统延时。但这个操作过程是一种近似算法方法,不可避免的或多或少都会有精度损失,故存在一个全局最优解。
人工智能的三驾马车 —— 算法、算力、数据,这三者的关系是相互影响、相互支撑的,它们缺一不可。

算力提升→能运行更强的算法→可以收集更多的信息→需要更强的算法→需要更强的算力→算力提升→能运行更强的算法…… 这就是一个很好的正向循环。 为什么很多自动驾驶的车企卖硬件是不需要花钱,而软件是需要额外付费的,就是因为他们要利用一切可以利用的摄像头来收集尽可能多的信息。 对于手机来说,有个更强的 NPU, 也需要尽可能给更多的产品用上,这样才能均摊成本,收集记录更多信息,反哺算法 目前手机领域最著名的 NPU 之一,肯定就包括 OPPO 的马里亚纳 X, 因此我们有理由相信,它不仅仅只会在顶级旗舰 Find X 系列上搭载,而是会尽可能铺向中高端,如果可以的话,乃至入门的机器也会用上。 到了那个时候,我们就可以期待不仅仅 OPPO 的高端产品能有独特并超出其他竞品的优势,同时中端产品也可以有比采用类似规格 CMOS 和 SoC 的产品更好的表现。
特斯拉FSD、寒武纪NPU、地平线BPU、OPPO的马里亚纳、荣耀使用的AI-ISP。
极智AI | 谈谈 GPU 并行推理的几个方式
极智AI | TensorRT API 构建模型推理流程
GPU硬件的发展与特性分析—Tesla系列汇总
我正在尝试从Postgresql表(table1)中获取数据,该表由另一个相关表(property)的字段(table2)过滤。在纯SQL中,我会这样编写查询:SELECT*FROMtable1JOINtable2USING(table2_id)WHEREtable2.propertyLIKE'query%'这工作正常:scope:my_scope,->(query){includes(:table2).where("table2.property":query)}但我真正需要的是使用LIKE运算符进行过滤,而不是严格相等。然而,这是行不通的:scope:my_scope,->(que
?博客主页:https://xiaoy.blog.csdn.net?本文由呆呆敲代码的小Y原创,首发于CSDN??学习专栏推荐:Unity系统学习专栏?游戏制作专栏推荐:游戏制作?Unity实战100例专栏推荐:Unity实战100例教程?欢迎点赞?收藏⭐留言?如有错误敬请指正!?未来很长,值得我们全力奔赴更美好的生活✨------------------❤️分割线❤️-------------------------
我正在尝试按Rails相关模型中的字段进行排序。我研究的所有解决方案都没有解决如果相关模型被另一个参数过滤?元素模型classItem相关模型:classPriority我正在使用where子句检索项目:@items=Item.where('company_id=?andapproved=?',@company.id,true).all我需要按相关表格中的“位置”列进行排序。问题在于,在优先级模型中,一个项目可能会被多家公司列出。因此,这些职位取决于他们拥有的company_id。当我显示项目时,它是针对一个公司的,按公司内的职位排序。完成此任务的正确方法是什么?感谢您的帮助。PS-我
假设您有一个可执行文件foo.rb,其库bar.rb的布局如下:/bin/foo.rb/lib/bar.rb在foo.rb的header中放置以下要求以在bar.rb中引入功能:requireFile.dirname(__FILE__)+"../lib/bar.rb"只要对foo.rb的所有调用都是直接的,这就可以正常工作。如果你把$HOME/project和符号链接(symboliclink)foo.rb放入$HOME/usr/bin,然后__FILE__解析为$HOME/usr/bin/foo.rb,因此无法找到bar.rb关于foo.rb的目录名.我意识到像rubygems这
术语中文解释Ability原子化服务帮助用户完成任务的原子化服务,和用户的意图进行关联。Fulfillment服务履行通过图标,卡片,语音等形式呈现用户意图。开发者通过接口的方式,处理用户意图,返回内容。Intent意图用于表达用户想要达成的目标或完成的任务。HUAWEIAssistant智能助手“无微不智”的个人助手,通过不断的学习用户的使用习惯,不断的为用户提供贴心的精准的便捷的个性化服务。AISearch全局搜索用户可快速搜索关键词,与之匹配的原子化服务则会出现在搜索结果中。SmartService智慧服务用户订阅原子化服务,在到达特定触发条件(时间、地点、事件)后,卡片推送至用户智能助
目录H2数据库入门以及实际开发时的使用1.H2数据库的初识1.1H2数据库介绍1.2为什么要使用嵌入式数据库?1.3嵌入式数据库对比1.3.1性能对比1.4技术选型思考2.H2数据库实战2.1H2数据库下载搭建以及部署2.1.1H2数据库的下载2.1.2数据库启动2.1.2.1windows系统可以在bin目录下执行h2.bat2.1.2.2同理可以通过cmd直接使用命令进行启动:2.1.2.3启动后控制台页面:2.1.3spring整合H2数据库2.1.3.1引入依赖文件2.1.4数据库通过file模式实际保存数据的位置2.2H2数据库操作2.2.1Mysql兼容模式2.2.2Mysql模式
这个错误已经有好几个月了,在这里:http://www.ruby-forum.com/topic/1094002其中显示代码更改的两个链接:https://github.com/godfat/ruby/commit/f4e0e8f781b05c767ad2472a43a4ed0727a75708https://github.com/godfat/ruby/commit/c7a6cf975d88828c2ed27d253f41c480f9b66ad6我有Ruby1.9.2和rvm。我会把这些更改粘贴到适当的文件中,但我不知道如何粘贴。这在几天前就奏效了。我不能像这样执行RubyonRai
文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火,生成式AI,大模型的人工智能被越来越多的人注意到,同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年,中国,印度和希腊哲学家都提出了一些推理的研究理论,比如亚里士多德(Aristotle)进行了演绎推理三段论的完整分析,欧几里得(Euclid)所著Elements是一种形式推理的模型,MuḥammadibnMūsāal-Khwārizmī,发明了代数学,即我们
目录1古彝文与古典保护2古文识别的挑战2.1西文与汉文OCR2.2古彝文识别难点3合合信息:古彝文保护新思路3.1图像矫正3.2图像增强3.3语义理解3.4工程技巧4总结1古彝文与古典保护彝文指的是云南、贵州、四川等地的彝族人使用的文字,区别于现代意义上的彝文,古彝文指的是在民间流通使用的原生态彝文,多达87046字。古彝文的起源距今至少数千年,是世界上最古老的文字之一。对古彝文字集研究有助于理解尚未被翻译成汉文、用字尚未规范化的古籍,更深层、透彻地作用于传统文化保护。古彝文字义对照图(网络资料+邵文苑供图)古籍是不可再生的宝贵资源,应当得到妥善保护。中国的古籍在历史上迭经水火兵燹等自然灾害、
我对相关搜索有疑问。以下请求的结果很奇怪:Candidate.search('martin',fields:[:first_name,:last_name],match::word_start,misspellings:false).map(&:name)["KautzerMartina","FunkMartin","JaskolskiMartin","GutmannMartine","WiegandMartina","SchuellerMartin","DooleyMartin","StiedemannMartine","BartellMartina","GerlachMartine