草庐IT

Backbone 网络-ResNet 论文解读

armcvai 2023-03-28 原文

摘要

残差网络(ResNet)的提出是为了解决深度神经网络的“退化”(优化)问题

论文指出,神经网络越来越深的时候,反传回来的梯度之间的相关性会越来越差,最后接近白噪声。即更深的卷积网络会产生梯度消失问题导致网络无法有效训练。

ResNet 通过设计残差块结构,调整模型结构,让更深的模型能够有效训练更训练。目前 ResNet 被当作目标检测、语义分割等视觉算法框架的主流 backbone。

一,残差网络介绍

作者提出认为,假设一个比较浅的卷积网络已经可以达到不错的效果,那么即使新加了很多卷积层什么也不做,模型的效果也不会变差。但,之所以之前的深度网络出现退化问题,是因为让网络层什么都不做恰好是当前神经网络最难解决的问题之一!

因此,作者可以提出残差网络的初衷,其实是让模型的内部结构至少有恒等映射的能力(什么都不做的能力),这样可以保证叠加更深的卷积层不会因为网络更深而产生退化问题!

1.1,残差结构原理

对于 VGG 式的卷积网络中的一个卷积 block,假设 block 的输入为 \(x\) ,期望输出为 \(H(x)\),block 完成非线性映射功能。

那么,如何实现恒等映射呢?

假设卷积 block 的输入为 \(x\) ,block 期望输出为 \(H(x)\),我们一般第一反应是直接让学习 \(H(x) = x\),但是这很难!

对此,作者换了个角度想问题,既然 \(H(x) = x\) 很难学习到,那我就将 \(H(x)\) 学习成其他的。因此,作者将网络设计为 \(H(x) = F(x) + x\),即直接把恒等映射作为网络的一部分。这就把前面的问题转换成了学习一个残差函数 \(F(x) = H(x) - x\)

只要 \(F(x) = 0\),那不就实现了前面的目的-恒等映射: \(H(x) = x\)。而显然,拟合残差 \(F(x)\) 至少比拟合恒等映射容易得多,其通过 \(L2\) 正则就可以轻松实现。于是,就有了残差块结构(resdiual block)。

综上,一句话总结残差结构原理就是,与其学习 block 的输出等于输入,不如学习“输出减去输入”

基本残差块结构如下图所示:

从图中可以看出,一个残差块有 \(2\) 条路径 \(F(x)\)\(x\)\(F(x)\) 路径拟合残差 \(H(x)-x\),可称为残差路径,\(x\) 路径为恒等映射(identity mapping),称其为”shortcut”。图中的 \(⊕\) 为逐元素相加(element-wise addition),要求参与运算的 \(F(x)\)\(x\) 的尺寸必须相同!

1.2,两种不同的残差路径

在 ResNet 原论文中,残差路径的设计可以分成 \(2\) 种,

  1. 一种没有 bottleneck 结构,如图3-5左所示,称之为“basic block”,由 2 个 \(3\times 3\) 卷积层构成。2 层的残差学习单元其两个输出部分必须具有相同的通道数(因为残差等于目标输出减去输入,即 \(H(x) - x\),所以输入、输出通道数目需相等)。
  2. 另一种有 bottleneck 结构,称之为 “bottleneck block”,对于每个残差函数 \(F\),使用 \(3\) 层堆叠而不是 2 层,3 层分别是 \(1\times 1\)\(3\times 3\)\(1\times 1\) 卷积。其中 \(1\times 1\) 卷积层负责先减小然后增加(恢复)维度,使 \(3\times 3\) 卷积层的通道数目可以降低下来,降低参数量减少算力瓶颈(这也是起名 bottleneck 的原因 )。50 层以上的残差网络都使用了 bottleneck block 的残差块结构,因为其可以减少计算量和降低训练时间。

3 层的残差学习单元是参考了 Inception Net 结构中的 Network in Network 方法,在中间 \(3\times 3\) 的卷积前后使用 \(1\times 1\) 卷积,实现先降低维度再提升维度,从而起到降低模型参数和计算量的作用。

1.3,两种不同的 shortcut 路径

shortcut 路径大致也分成 \(2\) 种,一种是将输入 \(x\) 直接输出,另一种则需要经过 \(1\times 1\) 卷积来升维或降采样,其是为了将 shortcut 输出与 F(x) 路径的输出保持形状一致,但是其对网络性能的提升并不明显,两种结构如图3-6所示。

Residual Block(残差块)之间的衔接,在原论文中,\(F(x)+x\) 是经过 ReLU 后直接作为下一个 block 的输入 \(x\)

二,ResNet18 模型结构分析

残差网络中,将堆叠的几层卷积 layer 称为残差块(Residual Block),多个相似的残差块串联构成 ResNet。ResNet18 和 ResNet34 Backbone用的都是两层的残差学习单元(basic block),更深层的ResNet则使用的是三层的残差学习单元(bottle block)。

ResNet18 其结构如下图所示。

ResNet18 网络具体参数如下表所示。

假设图像输入尺寸为,\(1024\times 2048\),ResNet 共有五个阶段。

  1. 其中第一阶段的 conv1 layer 为一个 \(7\times 7\) 的卷积核,stride 为 2,然后经过池化层处理,此时特征图的尺寸已成为输入的1/4,即输出尺寸为 \(512\times 1024\)
  2. 接下来是四个阶段,也就是表格中的四个 layer:conv2_x、conv3_x、conv4_x、conv5_x,后面三个都会降低特征图尺寸为原来的 1/2,特征图的下采样是通过步长为 2 的 conv3_1, conv4_1 和 conv5_1 执行。所以,最后输出的 feature_map 尺寸为输入尺寸降采样 \(32 = 4\times 2\times 2\times 2\) 倍。

在工程代码中用 make_layer 函数产生四个 layer 即对应 ResNet 网络的四个阶段。根据不同层数的 ResNet(N):

  1. 输入给每个 layer 的 blocks 是不同的,即每个阶段(layer)里面的残差模块数目不同(即 layers 列表不同)
  2. 采用的 block 类型(basic 还是 bottleneck 版)也不同。

本文介绍的 ResNet18,使用 basic block,其残差模块数量(即units数量)是 [2, 2, 2, 2],又因为每个残差模块中只包含了 2 层卷积,故残差模块总的卷积层数为 (2+2+2+2)*2=16,再加上第一层的卷积和最后一层的分类,总共是 18 层,所以命名为 ResNet18。

ResNet50 为 [3, 4, 6, 3]。

个人思考

看了后续的 ResNeXtResNetv2DensenetCSPNetVOVNet 等论文,越发觉得 ResNet 真的算是 Backone 领域划时代的工作了,因为它让深层神经网络可以训练,基本解决了深层神经网络训练过程中的梯度消失问题,并给出了系统性的解决方案(两种残差结构),即系统性的让网络变得更“深”了。而让网络变得更“宽”的工作,至今也没有一个公认的最佳方案(InceptionResNeXt 等后续没有广泛应用),难道是因为网络变得“宽”不如“深”更重要,亦或是我们还没有找到一个更有效的方案。

参考资料

  1. Deep Residual Learning for Image Recognition
  2. https://github.com/pytorch/vision/blob/main/torchvision/models/resnet.py

有关Backbone 网络-ResNet 论文解读的更多相关文章

  1. ruby - 用 Ruby 编写一个简单的网络服务器 - 2

    我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不,不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本,提供另一个脚本,它将在其标准输入上获取请求,并在其标准输出上返回完整的响应。到目前为止一切顺利,但事实证明这真的很脆弱,因为它在第二个请求上中断并出现错误:/usr/b

  2. 网络编程套接字 - 2

    网络编程套接字网络编程基础知识理解源`IP`地址和目的`IP`地址理解源MAC地址和目的MAC地址认识端口号理解端口号和进程ID理解源端口号和目的端口号认识`TCP`协议认识`UDP`协议网络字节序socket编程接口`sockaddr``UDP`网络程序服务器端代码逻辑:需要用到的接口服务器端代码`udp`客户端代码逻辑`udp`客户端代码`TCP`网络程序服务器代码逻辑多个版本服务器单进程版本多进程版本多线程版本线程池版本服务器端代码客户端代码逻辑客户端代码TCP协议通讯流程TCP协议的客户端/服务器程序流程三次握手(建立连接)数据传输四次挥手(断开连接)TCP和UDP对比网络编程基础知识

  3. ruby - 检查网络文件是否存在,而不下载它? - 2

    是否可以在不实际下载文件的情况下检查文件是否存在?我有这么大的(~40mb)文件,例如:http://mirrors.sohu.com/mysql/MySQL-6.0/MySQL-6.0.11-0.glibc23.src.rpm这与ruby​​不严格相关,但如果发件人可以设置内容长度就好了。RestClient.get"http://mirrors.sohu.com/mysql/MySQL-6.0/MySQL-6.0.11-0.glibc23.src.rpm",headers:{"Content-Length"=>100} 最佳答案

  4. ruby - 404 未找到,但可以从网络浏览器正常访问 - 2

    我在这方面尝试了很多URL,在我遇到这个特定的之前,它们似乎都很好:require'rubygems'require'nokogiri'require'open-uri'doc=Nokogiri::HTML(open("http://www.moxyst.com/fashion/men-clothing/underwear.html"))putsdoc这是结果:/Users/macbookair/.rvm/rubies/ruby-2.0.0-p481/lib/ruby/2.0.0/open-uri.rb:353:in`open_http':404NotFound(OpenURI::HT

  5. 深度学习12. CNN经典网络 VGG16 - 2

    深度学习12.CNN经典网络VGG16一、简介1.VGG来源2.VGG分类3.不同模型的参数数量4.3x3卷积核的好处5.关于学习率调度6.批归一化二、VGG16层分析1.层划分2.参数展开过程图解3.参数传递示例4.VGG16各层参数数量三、代码分析1.VGG16模型定义2.训练3.测试一、简介1.VGG来源VGG(VisualGeometryGroup)是一个视觉几何组在2014年提出的深度卷积神经网络架构。VGG在2014年ImageNet图像分类竞赛亚军,定位竞赛冠军;VGG网络采用连续的小卷积核(3x3)和池化层构建深度神经网络,网络深度可以达到16层或19层,其中VGG16和VGG

  6. 【网络】-- 网络基础 - 2

    (本文是网络的宏观的概念铺垫)目录计算机网络背景网络发展认识"协议"网络协议初识协议分层OSI七层模型TCP/IP五层(或四层)模型报头以太网碰撞路由器IP地址和MAC地址IP地址与MAC地址总结IP地址MAC地址计算机网络背景网络发展        是最开始先有的计算机,计算机后来因为多项技术的水平升高,逐渐的计算机变的小型化、高效化。后来因为计算机其本身的计算能力比较的快速:独立模式:计算机之间相互独立。    如:有三个人,每个人做的不同的事物,但是是需要协作的完成。    而这三个人所做的事是需要进行协作的,然而刚开始因为每一台计算机之间都是互相独立的。所以前面的人处理完了就需要将数据

  7. 常见网络安全产品汇总(私信发送思维导图) - 2

    安全产品安全网关类防火墙Firewall防火墙防火墙主要用于边界安全防护的权限控制和安全域的划分。防火墙•信息安全的防护系统,依照特定的规则,允许或是限制传输的数据通过。防火墙是一个由软件和硬件设备组合而成,在内外网之间、专网与公网之间的界面上构成的保护屏障。下一代防火墙•下一代防火墙,NextGenerationFirewall,简称NGFirewall,是一款可以全面应对应用层威胁的高性能防火墙,提供网络层应用层一体化安全防护。生产厂家•联想网御、CheckPoint、深信服、网康、天融信、华为、H3C等防火墙部署部署于内、外网编辑额,用于权限访问控制和安全域划分。UTM统一威胁管理(Un

  8. 【Linux操作系统】——网络配置与SSH远程 - 2

    Linux操作系统——网络配置与SSH远程安装完VMware与系统后,需要进行网络配置。第一个目标为进行SSH连接,可以从本机到VMware进行文件传送,首先需要进行网络配置。1.下载远程软件首先需要先下载安装一款远程软件:FinalShell或者xhell7FinalShellxhell7FinalShell下载:Windows下载http://www.hostbuf.com/downloads/finalshell_install.exemacOS下载http://www.hostbuf.com/downloads/finalshell_install.pkg2.配置CentOS网络安装好

  9. ruby - 在 Ruby 中训练神经网络 - 2

    在神经网络方面,我完全是个初学者。我整天都在与ruby​​-fann和ai4r搏斗,不幸的是我没有任何东西可以展示,所以我想我会来到StackOverflow并询问这里的知识渊博的人。我有一组样本——每天都有一个数据点,但它们不符合我能够找出的任何明确模式(我尝试了几次回归)。不过,我认为看看是否有任何方法可以仅从日期预测future的数据会很好,而且我认为神经网络将是生成希望表达这种关系的函数的好方法.日期是DateTime对象,数据点是十进制数,例如7.68。我一直在将DateTime对象转换为float,然后除以10,000,000,000得到一个介于0和1之间的数字,我一直在将

  10. ruby - Heroku 和网络抓取 - 2

    我有一个nokigiri网络抓取工具,它发布到我试图发布到heroku的数据库。我有一个sinatra应用程序前端,我想从数据库中获取它。我是Heroku和Web开发的新手,不知道处理此类问题的最佳方法。我是否必须将上传到数据库的网络爬虫脚本放在sinatra路由下(如mywebsite.com/scraper),并让它变得如此模糊以至于没有人访问它?最后,我想让sinatra部分成为一个从数据库中提取的restapi。感谢大家的参与 最佳答案 您可以采用两种方法。第一个是通过控制台使用herokurunYOURCMD运行scrap

随机推荐