FCN全卷积网络理解及代码实现（来自pytorch官方实现）

是七叔呀 2023-04-22 原文

视频链接：https://www.bilibili.com/video/BV1J3411C7zd?vd_source=a0d4f7000e77468aec70dc618794d26f
代码：https://github.com/WZMIAOMIAO/deep-learning-for-image-processing

FCN是2015年提出的首个端对端的针对像素级预测的全卷积网络。
如今的pytorch实现的FCN都是基于ResNet-50的backbone，不是论文中的VGG16，且使用的是空洞卷积（也叫膨胀卷积）

pytorch官方实现的FCN网络结构图

博主github：https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_segmentation/fcn

一、相比以前网络的巨大提升：

二、传统使用池化层最后得到的其实是一个长度为1000的向量：

而换为卷积层之后，最后得到的是1000通道的2D图像，可以可视化为heat map图。

三、回顾VGG16

一般说的vgg16是D：

全连接操作前后：77512（通道）

$\color{red}{【假设忽略偏置】}$
全连接FC1计算：计算对应某一个结点的输出，将该节点与上一层某一个结点的权重与输入对应节点数值相乘，再求和

FC1参数：25088*4096=102760448

下层使用7*7的卷积核、stride=1，4096个卷积核的一个卷积层

Conv参数：77512*4096=102760448

$\color{red}{一个卷积核和FC1一个节点参数量一样}$ ，一共4096个卷积核，FC也是4096个节点。

$\color{red}{【不忽略偏置的正常卷积操作，4096个卷积核应该有4096个偏置项】}$

PS：全连接层

全连接层的输入是一维数组，多维数组需先进行Flatten进行一维化处理，然后连接全连接层。全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的。全连接图结构如下：

其中，x1、x2、x3为全连接层的输入，a1、a2、a3为输出，有

全连接层参数计算

权值参数=输入一维数组大小*全连接层输出结点数
偏置参数b=全连接层输出结点数

eg:
输入有[5044]个神经元结点，输出有500个结点，则一共需要5044*500=400000个权值参数W和500个偏置参数b

卷积和全连接层

卷积跟全连接都是一个点乘的操作，区别在于卷积是作用在一个局部的区域，而全连接是对于整个输入而言，那么只要把卷积作用的区域扩大为整个输入，那就变成全连接了，我就不给出形式化定义了。所以我们只需要把卷积核变成跟输入的一个map的大小一样就可以了，这样的话就相当于使得卷积跟全连接层的参数一样多。
eg:输入是224x224x3 的图像，假设经过变换之后最后一层是[7x7x512]的，那么传统的方法应该将其展平成为一个7x7x512长度的一层，然后做全连接层，假设全连接层为4096×1000层的（假设有1000个分类结果）。那么用1×1卷积核怎么做呢，因为1×1卷积核相当于在不同channel之间做线性变换，所以：

先选择7×7的卷积核，输出层特征层数为4096层，这样得到一个[1×1×4096]层的
然后再选择用1×1卷积核，输出层数为1000层，这样得到一个[1×1×1000]层这样就搞定了。

四、FCN-32s、16s、8s的区别

上采样倍率为32的模型对应的就是FCN-32s，16s、8s同理。

FCN-32s

FCN原论文中backbone的第一个卷积层padding=100，为了防止图片过小（例如192192）后面的卷积层会报错。
如果图片小于3232的话在卷积过程就会报错。
但是没必要设置，只要输入图片大小大于32*32，我们就可以将padding设置为3。

对于FCN-32s：

vgg16 backbone输出的特征图大小就为h/32，w/32，512。高度宽度变为原图的1/32。
之后经过FC6层：由于我们将FC6卷积层的padding设置为3、卷积核大小7*7，通过FC6之后将不会改变特征图的高和宽；且我们使用了4096个卷积核，所以这里就得到了4096个2D特征图。
经过FC7：使用了1*1大小的卷积核，步距也为1，所以输出特征图shape也不会发生变化。
之后经过卷积核大小为1*1的卷积层：它的卷积核的个数和我们的分类类别数一样（包含背景，对于voc为20类+1背景），将特征图通道数变为num_cls。
之后通过一个转置卷积：这里的s32我们会将特征图上采样32倍【原论文中使用的是双线性插值】，得到特征图大小变为h，w，num_cls。

之后特征图经过一个softmax处理就能得到针对每一个pixel的预测类别。
前面的backbone使用的是vgg16的预训练权重，整个结构十分简单，但是效果还是非常不错的。

其实这里的转置卷积在原论文中其实是将参数给冻结住了，冻结住意味着其实它就是一个简单的双线性卷积了。

所以这里其实可以不使用转置卷积，可以直接使用深度学习框架提供给我们的双线性插值方法。
为什么会冻结呢？作者说冻结不冻结作者觉得结果好像没有什么差别，而且冻结参数会少一些。up主觉得冻结不冻节效果一般的原因是这里的上采样倍率太大了，有点强人所难的感觉。有兴趣的可以看一下u-net中的上采样率是多少。

FCN-16s

FC6、FC7、Conv2d核32s的一样。
不同点：

转置卷积上采样率变为了2倍，之后高和宽变为1/16
下面分支经过maxpool4之后变也为1/16，通道数为512；后接上了一个1*1卷积、卷积核数量为num_cls、步长为1，得到特征图大小1/16、通道数变为num_cls
之后进行一个相加操作，转置卷积上采样16倍就得到了原图大小h，w，num_cls

$\color{red}{【FCN-16s中融合了来自maxpool4的信息】}$

须知：vgg16经过mxpool3之后特征图大小下采样率为8，经过maxpool4后下采样率为16。

FCN-8s

不同点：

8s还利用了来自于mxpool3的信息，经过16s类似的1*1卷积层后得到一个1/8，通道数为num_cls的特征图；
FCN-16s上两层后得到的1/16特征图，经过一个转置卷积上采样，采样率为2倍就能得到一个和maxpool3输出尺寸一样的1/8的特征图
一块进行一个相同位置元素的相加操作【进一步的融合】，最后进行一个上采样倍率为8的转置卷积就能得到一个和原图大小一样的特征图大小h，w，num_cls。

$\color{red}{【由此可见，FCN-16s和FCN-8s融合了一个底层的信息；而FCN32s是最简单的，它没有融合底层信息】}$ 在网上看到最多的是FCN-32的实现。

五、损失计算

针对每一个pixel都会去计算它所对应的一个Cross Entropy Loss，然后将所有pixel的交叉熵损失进行一个求平均操作就得到了一个我们网络的最终的一个损失

六、语义分割评价指标

见前言：语义分割前沿

七、代码实现

ResNet-50中先经过conv1 7*7的一个卷积

conv_2：3*3的一个最大池化下采样，再接上3个残差块（对应右图layer1）
conv_3：4个残差块（对应layer2）

$\color{red}{不同的地方：}$

layer3：这里也有6个残差结构，1个Bottleneck1+5个Bottleneck2
layer4：3个残差结构，1个Bottleneck1+2个Bottleneck2

Bottleneck1：

将残差连接的2*2卷积层步距改为1，原来resnet这个分支会进行一个下采样将高和宽缩短为一半，【这里因为语义分割中下采样倍率过大的话，再还原成原图后，这里的效果其实会受影响，所以我们这里就没有必要再做一个下采样了。】
此外主干分支3*3卷积的步距也从2改为了1，同时引入了r参数，即膨胀系数。

Bottleneck2：

接下来通过FCN Head模块：33卷积层缩小通道为原来的1/4【2048-512】，再通过一个dropout和一个11卷积层，这里11卷积层调整特征层的channel为分割类别中的类别个数。
最后经过双线性插值还原特征图大小到原图。【图例：输入480480，上采样也到480*480】

layer3中引出的一条FCN Head，官方回答：为了防止误差梯度没法传递到网络浅层，这里就引入了一个辅助分类器。和google net中辅助分类器是差不多的。
训练的时候是可以使用辅助分类器件的【可用可不用，都可以试一下】，但是最后去预测或者部署到正式环境的时候只用主干的output，不用aux output。

up主的代码地址：https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_segmentation/fcn

有关FCN全卷积网络理解及代码实现（来自pytorch官方实现）的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby - 如何根据特征实现 FactoryGirl 的条件行为 - 2
我有一个用户工厂。我希望默认情况下确认用户。但是鉴于unconfirmed特征，我不希望它们被确认。虽然我有一个基于实现细节而不是抽象的工作实现，但我想知道如何正确地做到这一点。factory:userdoafter(:create)do|user,evaluator|#unwantedimplementationdetailshereunlessFactoryGirl.factories[:user].defined_traits.map(&:name).include?(:unconfirmed)user.confirm!endendtrait:unconfirmeddoenden
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - 用 Ruby 编写一个简单的网络服务器 - 2
我想在Ruby中创建一个用于开发目的的极其简单的Web服务器(不，不想使用现成的解决方案)。代码如下:#!/usr/bin/rubyrequire'socket'server=TCPServer.new('127.0.0.1',8080)whileconnection=server.acceptheaders=[]length=0whileline=connection.getsheaders想法是从命令行运行这个脚本，提供另一个脚本，它将在其标准输入上获取请求，并在其标准输出上返回完整的响应。到目前为止一切顺利，但事实证明这真的很脆弱，因为它在第二个请求上中断并出现错误:/usr/b
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源
华为OD机试用Python实现 -【明明的随机数】 2023Q1A - 2
华为OD机试题本篇题目：明明的随机数题目输入描述输出描述：示例1输入输出说明代码编写思路最近更新的博客华为od2023|什么是华为od，od薪资待遇，od机试题清单华为OD机试真题大全，用Python解华为机试题|机试宝典【华为OD机试】全流程解析+经验分享,题型分享,防作弊指南华为o