草庐IT

EfficientNet系列(1): EfficientNetV2网络详解

@BangBang 2024-01-02 原文

EfficicentNet网络简介

EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks,这篇论文是Google在2019年发表的文章。

EfficientNet这篇论文,作者同时关于输入分辨率,网络深度,宽度对准确率的影响,在之前的文章中是单独增加图像分辨率或增加网络深度或单独增加网络的宽度,来试着提升网络的准确率。在EfficientNet这篇论文中,作者使用了网络搜索技术NAS去同时探索输入分辨率,网络深度、宽度的影响。

EfficientNet的效果究竟如何呢?

这幅图是原论文作者给出的关于Efficient以及当时主流的一系列分类网络的Top-1的准确率,我们发现EfficientNet不仅在参数数量上比很多主流模型要小以外,准确率明显也要更好

  • 论文中提到,本文提出的EfficientNet-B7在ImageNet top-1达到了当年最高的准确率84.3%,与之前准确率最高的GPipe相比,参数数量仅为其1/8.4,推理速度提升了6.1

网络对比(宽度、深度、分辨率)

- 图a 传统的卷积神经网络

  • 图b,在图a的基础上单独增加了网络的宽度(宽度代表的是特征层的channel)
  • 图c,在图a的基础上单独增加了网络的深度,明显可以看到相对于图a,它的layers明显更多了,网络会变得更加深
  • 图d,在图a基准网络的基础上对图像的分辨率进行了增加,提升图像的分辨率我们得到的每个特征矩阵高和宽会相应的增加
  • 图e, 对网络同时增加网络的宽度、深度以及输入图像的分辨率
  • 根据以往的经验,增加网络的深度depth能够得到更加丰富、复杂的特征并且能够很好的应用到其他任务中。但网络的深度过深会面临梯度消失,训练困难的问题
  • 增加网络的width能够获得更细粒度的特征并且也更容易训练,但对于width很大而且深度较浅的网络往往很难学习到更深层次的特征。
  • 增加输入网络的图像分辨率能够潜在得获得更高细粒度的特征模板,但对于非常高的输入分辨率,准确度的增益也会减少。并且大分辨率图像会增加计算量。

从上图可以看出,scale by width,scale by depth,scale by resolution,发现这三条虚线基本上在准确率达到80%以后基本上就饱和了不在增加了。对于红色的线,我们同时增加网络的宽度、深度、分辨率,我们发现它达到了80%的准确率后并没有出现饱和的现象,并且还可以继续增长上去。这就说明了我们同时增加网络的深度、宽度、分辨率的话,我们是可以得到一个更好的结果的.


并且当理论的计算量相同时,我们同时增加网络的深度、宽度、分辨率的话,网络的效果会更好。

EfficientNet-B0 Network

EfficientNet-B0网络,也是作者通过网络搜索技术得到的,它的详细网络参数如下表

EfficientNet-B0 网络结构
  • 我们发现在Efficientstage一共有1~9个stage。stage 1是一个3x3的卷积层。对于stage2~stage8我们能够发现,它是在重复堆叠MBConv,这里的MBConv就是MobienetConv,后续会讲到。Stage 9是由3部分构成:Conv 1x1PoolingFC`层。
  • 这里的分辨率(Resolution),对应的是输入每个Stage的高度和宽度
  • Channels,对应我们每个Stage输出特征矩阵的channel个数,
  • Layers: 将我们对应的Operator重复多少次,比如stage3对应的Layers2,就会对MBConv6重复两次
  • 这里的stride对应的Layers对应的第一层的stride,其他的步距都等于1的。

EfficientNet-B0 Network

MBConv 模块

论文中其实也说了,MBConv其实和MobileNet v3使用的Block是一样的。我们来简单看下在Efficient 中我们使用的MBConv它的结构。

  • 首先对我们的主分支而言,是一个1x1的卷积一般是用来升维的,然后通过BN以及Swish激活函数
  • 紧接着通过一个DW卷积,它的卷积核是k x k,k可能是3也可能是5,这里的步距可能是1也可能是2.
  • 紧接着将DW卷积的输出通过BNSwish激活函数之后,在通过一个SE模块。
  • 紧接着在通过一个1x1的卷积,这里的1x1卷积启动一个降维的作用,注意这里只有一个BN,没有swish激活函数。
  • 紧接着在通过一个dropout操作
  • 然后将我们输入特征矩阵,从我们捷径分支引过来,直接与我们主分支得到的输出特征矩阵进行相加得到我们对应的输出

这里需要注意几个点:

  • 第一个升维的卷积层,它的卷积核个数是输入特征矩阵channel的n倍,这里的n对应的是多少呢,就是我们Operator对应的MBCov对应的数字,就是我们的倍率因子n
  • 对于MBConv最后一个降维的卷积层,它的卷积核个数等于多少呢,它就是对应我们上图表格中对应的Channels来进行设置的。这里Channels等于多少,我们这里1x1卷积核个数就等于多少。
  • 第2个注意点就是当MBConv1时,即此时n=1的时候,我们是不需要1x1的卷积层的,因为我们知道第一个1x1卷积主要起到升维作用,那么当n=1的时候相当于并没有升维。对应的就是表格中的Stage2中对应的operatorMBConv1,它这里的MBConv是没有1x1的卷积层的
  • 关于shortcut连接,仅当输入MBConv结构特征矩阵与输出的特征矩阵shape相同的时才存在

SE模块

  • 首先对输入特征矩阵的feature map的每一个channel进行平均池化操作
    ,然后在分别通过两个全连接层。
  • 注意的是第一个全连接层的激活函数是Swish激活函数,第二个全连接层的激活函数使sigmoid激活函数。
    -第一个全连接层的节点个数是输入该MBConv特征矩阵channels的1/4,第二个全连接层的节点个数等于feature_mapchannels个数,这里的feature_mapMBConvDW输出的特征矩阵。

EfficientNet-B0~ EfficientNet-B7网络参数

  • EfficientNet-B0~ EfficientNet-B7网络的结构都是一样的,就是网络的input_size,width_coefficient,depth_coefficient等参数设置存在差异。
  • width_coefficient代表channel维度上的倍率因子,比如在EfficientNetB0中的Stage1的3x3卷积层所使用的卷积核个数是32,那么在B6中就是32 x 1.8=57.6接着取整到离它最近的8倍整数即56,其他stage同理。
  • depth_coefficient代表depth维度上的倍率因子(仅针对Stage2Stage8),比如在EfficientNetB0中Stage7的L=4,那么在B6中就是4 x 2.6 =10.4,接着向上取整即11
  • drop_connect_rate它对应的就是MBConv当中的dropout层的随机失活比例,注意并不是所有MBConv层的dropout都等于0.2.在源码实现中,将所有的MBConv结构中dropout层的随机失活比率从0一直慢慢增长到所给定的drop_connect_rate,
  • 最后一个dropout_rate对应的是EfficientNet最后全连接层之前对应的dropout失活比率

性能对比

  • EfficientNet-B0对比的是我们ResNet-50以及我们DenseNet-169,我们可以看到它的准确率是最高的,参数量是最少的,它的理论上的计算量是最低的。同样B1~B7都对一系列网络进行了对比
  • 不过在实际使用过程中,首先它的准确率确实是挺高的,然后它的参数个数确实也很少,这是毋庸置疑的。但是有个问题网络训练时非常占GPU的显存,因为在我们EfficientNet中像B4,B5,B6,B7这些模型,它的输入图片的分辨率非常大导致我们每一个层结构输出特征矩阵的高和宽都要相应的增加。所以对于我们显存的占用也会增加。
  • 而且对于速度直接对比Flops是不完全对的,真实情况下我们所关注的速度其实是在设备上的推理的速度;真实的推理速度和Flops其实不是直接相关的,它还有很多其他因素的影响,所以如果你能给出在某些设备上它的推理时间的话会更加有意义

有关EfficientNet系列(1): EfficientNetV2网络详解的更多相关文章

  1. python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声? - 2

    关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点?我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等),但我确实想创建一个输出文件。

  2. ruby-on-rails - 使用一系列等级计算字母等级 - 2

    这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间,其中100是最大分数。计算平均分并将字母等级作为字符串返回,即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join,

  3. ruby - 用 Ruby 编写一个简单的网络服务器 - 2

    我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不,不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本,提供另一个脚本,它将在其标准输入上获取请求,并在其标准输出上返回完整的响应。到目前为止一切顺利,但事实证明这真的很脆弱,因为它在第二个请求上中断并出现错误:/usr/b

  4. 【鸿蒙应用开发系列】- 获取系统设备信息以及版本API兼容调用方式 - 2

    在应用开发中,有时候我们需要获取系统的设备信息,用于数据上报和行为分析。那在鸿蒙系统中,我们应该怎么去获取设备的系统信息呢,比如说获取手机的系统版本号、手机的制造商、手机型号等数据。1、获取方式这里分为两种情况,一种是设备信息的获取,一种是系统信息的获取。1.1、获取设备信息获取设备信息,鸿蒙的SDK包为我们提供了DeviceInfo类,通过该类的一些静态方法,可以获取设备信息,DeviceInfo类的包路径为:ohos.system.DeviceInfo.具体的方法如下:ModifierandTypeMethodDescriptionstatic StringgetAbiList​()Obt

  5. 网络编程套接字 - 2

    网络编程套接字网络编程基础知识理解源`IP`地址和目的`IP`地址理解源MAC地址和目的MAC地址认识端口号理解端口号和进程ID理解源端口号和目的端口号认识`TCP`协议认识`UDP`协议网络字节序socket编程接口`sockaddr``UDP`网络程序服务器端代码逻辑:需要用到的接口服务器端代码`udp`客户端代码逻辑`udp`客户端代码`TCP`网络程序服务器代码逻辑多个版本服务器单进程版本多进程版本多线程版本线程池版本服务器端代码客户端代码逻辑客户端代码TCP协议通讯流程TCP协议的客户端/服务器程序流程三次握手(建立连接)数据传输四次挥手(断开连接)TCP和UDP对比网络编程基础知识

  6. 阿里云RDS——产品系列概述 - 2

    基础版云数据库RDS的产品系列包括基础版、高可用版、集群版、三节点企业版,本文介绍基础版实例的相关信息。RDS基础版实例也称为单机版实例,只有单个数据库节点,计算与存储分离,性价比超高。说明RDS基础版实例只有一个数据库节点,没有备节点作为热备份,因此当该节点意外宕机或者执行重启实例、变更配置、版本升级等任务时,会出现较长时间的不可用。如果业务对数据库的可用性要求较高,不建议使用基础版实例,可选择其他系列(如高可用版),部分基础版实例也支持升级为高可用版。基础版与高可用版的对比拓扑图如下所示。优势 性能由于不提供备节点,主节点不会因为实时的数据库复制而产生额外的性能开销,因此基础版的性能相对于

  7. ruby - 检查网络文件是否存在,而不下载它? - 2

    是否可以在不实际下载文件的情况下检查文件是否存在?我有这么大的(~40mb)文件,例如:http://mirrors.sohu.com/mysql/MySQL-6.0/MySQL-6.0.11-0.glibc23.src.rpm这与ruby​​不严格相关,但如果发件人可以设置内容长度就好了。RestClient.get"http://mirrors.sohu.com/mysql/MySQL-6.0/MySQL-6.0.11-0.glibc23.src.rpm",headers:{"Content-Length"=>100} 最佳答案

  8. ruby - 404 未找到,但可以从网络浏览器正常访问 - 2

    我在这方面尝试了很多URL,在我遇到这个特定的之前,它们似乎都很好:require'rubygems'require'nokogiri'require'open-uri'doc=Nokogiri::HTML(open("http://www.moxyst.com/fashion/men-clothing/underwear.html"))putsdoc这是结果:/Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:353:in`open_http':404NotFound(OpenURI::HT

  9. ruby - 从结束值创建一系列字符串 - 2

    我使用irb。下面是我写的代码。“斧头”..“bc”我期待"ax""ay""az""ba"bb""bc"但结果只是“斧头”..“bc”我该如何纠正?谢谢。 最佳答案 >puts("ax".."bc").to_aaxayazbabbbc 关于ruby-从结束值创建一系列字符串,我们在StackOverflow上找到一个类似的问题: https://stackoverflow.com/questions/7617092/

  10. 深度学习12. CNN经典网络 VGG16 - 2

    深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG(VisualGeometryGroup)是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军,定位竞赛冠军;VGG网络采用连续的小卷积核(3x3)和池化层构建深度神经网络,网络深度可以达到16层或19层,其中VGG16和VGG

随机推荐