YOLOv5 模型结构及代码详细讲解（一）

卿云阁 2023-05-21 原文

王旭*，沈啸彬 *, 张钊*

(淮北师范大学计算机科学与技术学院，淮北师范大学经济与管理学院，安徽淮北)

*These authors contributed to the work equllly and should be regarded as co-first authors.

🌞欢迎来到深度学习的世界
🌈博客主页：卿云阁

💌欢迎关注🎉点赞👍收藏⭐️留言📝

🌟本文由卿云阁原创！

🌠本阶段属于练气阶段，希望各位仙友顺利完成突破

📆首发时间：🌹2022年12月6日🌹

✉️希望可以和大家一起完成进阶之路！

🙏作者水平很有限，如果发现错误，请留言轰炸哦！万分感谢！

目录

🍈 配置文件

backbone配置文件

编辑

🍊构成的元素

Conv ---CBA(convolution, batch normalization, activation)

关于SiLU--sigmoid linear unit

SPP(Spatial Pyramid Pooling)/SPPF(Spatial Pyramid Pooling Fast)结构

C3 -- cross stage partial network with 3 convolutions

🍋项目结构

🍈 配置文件

在yolov5中有好几种得配置文件，这几种配置文件只有下面的两个参数不同，其它部分都相同这两个参数是为了控制模型大小的。下面以yolov5l.yaml为例
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
第一部分：
# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 80  # number of classes
depth_multiple: 1.0  # model depth multiple
width_multiple: 1.0  # layer channel multiple
anchors:
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32
nc: 80  # number of classes
这一部分代表模型的种类，对于coco数据集来说，有80个类别。
depth_multiple: 1.0  # model depth multiple
是为了控制层的重复的次数。它会和number相乘后取整，代表该层的重复的数量，
width_multiple: 1.0  # layer channel multiple
是为了控制输出特征图的通道数，它会和出特征图的通道数相乘，代表该层的输出通道数。

backbone配置文件

backone的配置在文件models/yolov5*.yaml中，下面以yolov5l.yaml为例，
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]
输入图片的大小是640*640*3

第0层：conv层

每一行代表yolo网络的每一层
第一列表示该层输入特征图的来源，-1表示指的是上一层的输出当成自己的输入。
第二列，是为了控制该层重复的次数。
第三列，指的是该层的名字。
下面的一个列表是该层输入的参数，比如第一行的64代表该层输出特征图的通道数。（最后的输出还要进行相关的处理）。6代表该层用的是一个6*6大小的卷积核。第一个2表示描边2，下一个2指的是步长是2。
后面的注释我们可以看到，通过该层之后特征图的大小变成原图的1/2.

第1层：conv层

通过该层之后特征图的大小变成原图的1/4.

第2层：C3层

通过该层之后特征图的大小不变.

第3层：conv层

通过该层之后特征图的大小变成原图的1/8.

第4层：C3层

通过该层之后特征图的大小不变.

第5层：conv层

通过该层之后特征图的大小变成原图的1/16.(40*40*512)

第6层：C3层(个数是9）

通过该层之后特征图的大小不变.

第7层：conv层

通过该层之后特征图的大小变成原图的1/16.(20*20*1024)

第8层：c3层(个数是3）

通过该层之后特征图的大小变成原图的1/16.(20*20*1024)

第9层：SPPF层

主要是对不同尺度特征图的融合。
特征图的大小的大小不变

到第九层为止，整个backbone就结束了，这个部分会形成三个接口，

第4层的输出：

80*80*256

第6层的输出：

40*40*512

第9层的输出：

20*20*1024

head网络结构

层为止head包括两个部分，一个部分是Neck,一个部分是 Detect部分。
# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 14], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 10], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[17, 20, 23], 1, Detect, [nc, anchors]],  # Detect(P3, P4, P5)
  ]
第10层：conv层

20*20*512

第11层：Upsample层

不改变通道数，特征图的长和宽会增加一倍

40*40*512

第12层： Concat层

与第6层的输出进行特征图的融合。

40*40*1024

第13层：c3层

40*40*512

第14层：conv层

40*40*256

第15层：Upsample层

不改变通道数，特征图的长和宽会增加一倍

80*80*256

第16层： Concat层

与第4层的输出进行特征图的融合。

80*80*512

第17层：c3层

40*40*256

两个向下融合：

第18层：conv层

40*40*256

第19层： Concat层

与第14层的输出进行特征图的融合。

40*40*512

第20层：c3层

40*40*512

第21层：conv层

20*20*512

第22层： Concat层

与第10层的输出进行特征图的融合。

20*20*1024

第23层：c3层

20*20*1024

Detect

是对第17，20，23层的输出进行检测。

🍊构成的元素

Conv ---CBA(convolution, batch normalization, activation)
class Conv(nn.Module):
    # Standard convolution
    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):  # ch_in, ch_out, kernel, stride, padding, groups
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        return self.act(self.conv(x))
关于SiLU--sigmoid linear unit

* sigmoid(x) = x / (e^-x + 1)

在yolov5中作者使用的是SiLU这个激活函数，用的这个函数有什么好处呢？

这个函数有一个极小值点，在模型训练的时候更有利于模型的收敛。

SPP(Spatial Pyramid Pooling)/SPPF(Spatial Pyramid Pooling Fast)结构

SPP 是何凯明15年在Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition中提出来的，在RCNN中第一阶段检测出来的候选框大小不一样，为了让这些候选框可以变成固定大小送进FC层，SPP就可以达到这一目的。

在YOLOV5中SPP的目的是进一步增大feature map的感受野，使得物体在不同的尺度下输入时都能够被很好的检测到。如下左图所示。

SPPF是YOLOV5作者突然有一天想出来的，他发现用连续三个5x5大小的kernal做polling可以达到同样的效果，如上右图所示。输入的feature map连续进入3个kernel size为5的卷积，然后cancat在一起，channel经过卷积升维到1024输出。SPPF在YOLO中的实现如下。
class SPPF(nn.Module):
    # Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher
    def __init__(self, c1, c2, k=5):  # equivalent to SPP(k=(5, 9, 13))
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_ * 4, c2, 1, 1)
        self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)

    def forward(self, x):
        x = self.cv1(x)
        with warnings.catch_warnings():
            warnings.simplefilter('ignore')  # suppress torch 1.9.0 max_pool2d() warning
            y1 = self.m(x)
            y2 = self.m(y1)
            return self.cv2(torch.cat((x, y1, y2, self.m(y2)), 1))
C3 -- cross stage partial network with 3 convolutions

C3源自于CSPNet--cross stage patrial networksWongKinYiu/CrossStagePartialNetworks: Cross Stage Partial Networks (github.com), CSPNet主要有以下几个贡献：

Strengthening learning ability of a CNN 现有的CNN在轻量化后，其精度大大降低，因此我们希望加强CNN的学习能力，使其在轻量化的同时保持足够的准确性。所提出的CSPNet可以很容易地应用于ResNet、ResNeXt和DenseNet。将CSPNet应用于上述网络后，计算量可从10%减少到20%，但在ImageNet[2]上进行图像分类任务的精度优于ResNet[7]、ResNeXt[39]、DenseNet[11]、HarDNet[1]、Elastic[36]和Res2Net[5]。
Removing computational bottlenecks 过高的计算瓶颈会导致更多的计算周期来完成推理过程，或者一些算力单元经常闲置。因此，我们希望能够均匀分配CNN中各层的计算量，这样可以有效提升各计算单元的利用率，从而减少不必要的能耗。据悉，提出的CSPNet使得PeleeNet[37]的计算瓶颈减少了一半。此外，在基于MS COCO[18]数据集的物体检测实验中，我们提出的模型在基于YOLOv3的模型上测试时，可以有效降低80%的计算瓶颈。
Reducing memory costs 动态随机存取存储器(DRAM)的晶圆制造成本非常昂贵，而且还占用了大量的空间。如果能有效降低存储器的成本，将大大降低ASIC的成本。此外，小面积的晶圆可以用于各种边缘计算设备。在减少内存使用方面，我们采用cross-channel pooling[6]，在特征金字塔生成过程中对特征图进行压缩。这样，提出的CSPNet与提出的对象检测器在生成特征金字塔时，可以减少PeleeNet上75%的内存使用量。

对于CSPNet这里不多赘述，下面我们看下YoloV5中的“简化版CSPNet”，C3结构，
class C3(nn.Module):
    # CSP Bottleneck with 3 convolutions
    def __init__(self, c1, c2, n=1, shortcut=True, g=1, e=0.5):  # ch_in, ch_out, number, shortcut, groups, expansion
        super().__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c1, c_, 1, 1)
        self.cv3 = Conv(2 * c_, c2, 1)  # optional act=FReLU(c2)
        self.m = nn.Sequential(*(Bottleneck(c_, c_, shortcut, g, e=1.0) for _ in range(n)))
        # self.m = nn.Sequential(*(CrossConv(c_, c_, 3, 1, g, 1.0, shortcut) for _ in range(n)))

    def forward(self, x):
        return self.cv3(torch.cat((self.m(self.cv1(x)), self.cv2(x)), 1))
        
class Bottleneck(nn.Module):
    # Standard bottleneck
    def __init__(self, c1, c2, shortcut=True, g=1, e=0.5):  # ch_in, ch_out, shortcut, groups, expansion
        super().__init__()
        c_ = int(c2 * e)  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_, c2, 3, 1, g=g)
        self.add = shortcut and c1 == c2

    def forward(self, x):
        return x + self.cv2(self.cv1(x)) if self.add else self.cv2(self.cv1(x))
🍋项目结构

scripts是获取数据的一些脚本。下面的yaml是关于一些数据的定义，比如coco数据集，coco128指的是从coco数据集中取出128张用于测试。

models中的yaml指的是4个模型的配置文件

yolo.py指的是把模型翻译成模型的一些接口。

common放的是一些网络结构的定义

rus是我们运行的时候的一些输出文件。

每一次运行就会生成一个exp的文件夹。

utils这个里面主要是放的一些脚本信息，比如数据增强等。

weight

yolov5s.pt指的是预训练模型

detect.py是负责推理的文件

train.py 是训练的文件

Institutional Review Board Statement: Not applicable.

Informed Consent Statement: Not applicable.

Data Availability Statement: Not applicable.

Author Contributions:All authors participated in the assisting performance study and approved the paper.

Conflicts of Interest: The authors declare no conflict of interest

有关YOLOv5 模型结构及代码详细讲解（一）的更多相关文章

ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 使用 ruby 将 HTML 转换为纯文本并维护结构/格式 - 2
我想将html转换为纯文本。不过，我不想只删除标签，我想智能地保留尽可能多的格式。为插入换行符标签，检测段落并格式化它们等。输入非常简单，通常是格式良好的html(不是整个文档，只是一堆内容，通常没有anchor或图像)。我可以将几个正则表达式放在一起，让我达到80%，但我认为可能有一些现有的解决方案更智能。最佳答案首先，不要尝试为此使用正则表达式。很有可能你会想出一个脆弱/脆弱的解决方案，它会随着HTML的变化而崩溃，或者很难管理和维护。您可以使用Nokogiri快速解析HTML并提取文本:require'nokogiri'h
ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - 在混合/模块中覆盖模型的属性访问器 - 2
我有一个包含模块的模型。我想在模块中覆盖模型的访问器方法。例如:classBlah这显然行不通。有什么想法可以实现吗？最佳答案您的代码看起来是正确的。我们正在毫无困难地使用这个确切的模式。如果我没记错的话，Rails使用#method_missing作为属性setter，因此您的模块将优先，阻止ActiveRecord的setter。如果您正在使用ActiveSupport::Concern(参见thisblogpost)，那么您的实例方法需要进入一个特殊的模块:classBlah
ruby-on-rails - 如何验证非模型(甚至非对象)字段 - 2
我有一个表单，其中有很多字段取自数组(而不是模型或对象)。我如何验证这些字段的存在？solve_problem_pathdo|f|%>... 最佳答案创建一个简单的类来包装请求参数并使用ActiveModel::Validations。#definedsomewhere,atthesimplest:require'ostruct'classSolvetrue#youcouldevencheckthesolutionwithavalidatorvalidatedoerrors.add(:base,"WRONG!!!")unlesss
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby-on-rails - 如何将验证与模型分开 - 2
我有一些非常大的模型，我必须将它们迁移到最新版本的Rails。这些模型有相当多的验证(User有大约50个验证)。是否可以将所有这些验证移动到另一个文件中？说app/models/validations/user_validations.rb。如果可以，有人可以提供示例吗？最佳答案您可以为此使用关注点:#app/models/validations/user_validations.rbrequire'active_support/concern'moduleUserValidationsextendActiveSupport:
ruby-on-rails - Rails 模型——非持久类成员或属性？ - 2
对于Rails模型，是否可以/建议让一个类的成员不持久保存到数据库中？我想将用户最后选择的类型存储在session变量中。由于我无法从我的模型中设置session变量，我想将值存储在一个“虚拟”类成员中，该成员只是将值传递回Controller。你能有这样的类(class)成员吗？最佳答案将非持久属性添加到Rails模型就像任何其他Ruby类一样:classUser扩展解释:在Ruby中，所有实例变量都是私有(private)的，不需要在赋值前定义。attr_accessor创建一个setter和getter方法:classUs

YOLOv5 模型结构及代码详细讲解（一）

🍈 配置文件

backbone配置文件

🍊构成的元素

Conv ---CBA(convolution, batch normalization, activation)

关于SiLU--sigmoid linear unit

SPP(Spatial Pyramid Pooling)/SPPF(Spatial Pyramid Pooling Fast)结构

C3 -- cross stage partial network with 3 convolutions

🍋项目结构

有关YOLOv5 模型结构及代码详细讲解（一）的更多相关文章

随机推荐