Yolov7：最新最快的实时检测框架，最详细分析解释（附源代码）

计算机视觉研究院 2023-10-24 原文

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2207.02696.pdf

代码地址：https://github.com/WongKinYiu/yolov7

计算机视觉研究院专栏

作者：Edison_G

YOLOv7相同体量下比YOLOv5精度更高，速度快120%(FPS)，比YOLOX快180%(FPS)，比Dual-Swin-T快1200%(FPS)，比ConvNext快550%(FPS)，比SWIN-L快500%(FPS)。

概述

前段时间才给大家分享了美团出品的Yolov6：

具体的链接如下：

链接🔗：劲爆！YOLOv6又快又准的目标检测框架开源啦（附源代码下载）
7月份又出来一个Yolov7，在5 FPS到160 FPS范围内的速度和精度达到了新的高度，并在GPU V100上具有30 FPS或更高的所有已知实时目标检测器中具有最高的精度56.8%AP。YOLOv7-E6目标检测器（56 FPS V100，55.9% AP）比基于Transform的检测器SWINL Cascade-Mask R-CNN（9.2 FPS A100，53.9% AP）的速度和准确度分别高出509%和2%，以及基于卷积的检测器ConvNeXt-XL Cascade-Mask R-CNN (8.6 FPS A100, 55.2% AP) 速度提高551%，准确率提高0.7%。

以及YOLOv7的表现优于：YOLOR、YOLOX、Scaled-YOLOv4、YOLOv5、DETR、Deformable DETR , DINO-5scale-R50, ViT-Adapter-B和许多其他目标检测器在速度和准确度上。

此外，研究者只在MS COCO数据集上从头开始训练YOLOv7，而不使用任何其他数据集或预训练的权重。

背景

最近，模型重参数化（model re-parameterization）和动态标签分配（dynamic label assignment）已成为网络训练和目标检测的重要课题。主要是在上述新概念提出之后，目标检测器的训练演变出了很多新的问题。

在今天分享中，研究者将介绍其发现的一些新问题，并设计解决这些问题的有效方法。对于模型重参数化，研究者用梯度传播路径的概念分析了适用于不同网络层的模型重参数化策略，并提出了有计划的重参数化模型。

此外，当发现使用动态标签分配技术时，具有多个输出层的模型的训练会产生新的问题。即：“如何为不同分支的输出分配动态目标？” 针对这个问题，研究者提出了一种新的标签分配方法，称为从粗到细的引导式标签分配。

新框架详细分析

扩展的高效层聚合网络

扩展的高效层聚合网络。提出的扩展ELAN（E-ELAN）完全没有改变原有架构的梯度传输路径，而是使用组卷积来增加添加特征的基数，并以shuffle和merge cardinality的方式组合不同组的特征 . 这种操作方式可以增强不同特征图学习到的特征，提高参数的使用和计算。

在大多数关于设计高效架构的文献中，主要考虑因素不超过参数的数量、计算量和计算密度。有人从内存访问成本的特点出发，分析了输入/输出通道比、架构的分支数量以及element-wise操作对网络推理速度的影响。有些人在执行模型缩放时还考虑了激活，即更多地考虑卷积层输出张量中的元素数量。

基于concatenate模型的模型缩放

模型缩放的主要目的是调整模型的一些属性，生成不同尺度的模型，以满足不同推理速度的需求。

例如EfficientNet的缩放模型考虑了宽度、深度和分辨率。对于Scale-yolov4，其缩放模型是调整阶段数。有些研究者分析了卷积和群卷积对参数量和计算量的影响，并据此设计了相应的模型缩放方法。

基于串联模型的模型缩放。从(a)到(b)，我们观察到当在基于串联的模型上执行深度缩放时，计算块的输出宽度也会增加。这种现象会导致后续传输层的输入宽度增加。因此，研究者提出(c)，即在对基于concatenation的模型进行模型缩放时，只需要对计算块中的深度进行缩放，其余传输层进行相应的宽度缩放。

Planned re-parameterized convolution

尽管RepConv在VGG基础上取得了优异的性能，但当将它直接应用于ResNet、DenseNet和其他架构时，它的精度将显著降低。作者使用梯度流传播路径来分析重参数化的卷积应该如何与不同的网络相结合。作者还相应地设计了计划中的重参数化的卷积。

RepConv实际上结合了3×3卷积，1×1卷积，和在一个卷积层中的id连接。通过分析RepConv与不同架构的组合及其性能，作者发现RepConv中的id连接破坏了ResNet中的残差和DenseNet中的连接，为不同的特征图提供了更多的梯度多样性。

提出的重参数化模型。在提出的计划重参数化模型中，我们发现一个带有残差或串联连接的层，其RepConv不应该有恒等连接。在这些情况下，它可以被不包含身份连接的 RepConvN 替换。

Coarse for auxiliary and fine for lead loss

Coarse for auxiliary and fine for lead head label assigner

与正常模型（a）相比，（b）中的模式具有辅助中心。与通常的独立标签分配器 (c) 不同，研究者提出 (d) 引导头引导标签分配器和 (e) 粗到细引导头引导标签分配器。所提出的标签分配器通过前导头预测和GT实况进行优化，以同时获得训练前导头和辅助头的标签。详细的从粗到细的实现方法和约束设计细节将在附录中详述。

实验及可视化

如上表所述：

与YOLOv4相比，YOLOv7的参数减少了75%，计算量减少了36%，AP提高了1.5%
与最先进的YOLOR-CSP相比，YOLOv7的参数少了43% ，计算量少了15%，AP高了0.4%
在小模型的性能中，与YOLOv4-tiny相比，YOLOv7-Tiny减少了39%的参数量和49%的计算量，但保持相同的AP
在云GPU模型上，YOLOv7模型仍然具有更高的AP，同时减少了19%的参数量和33%的计算量

将所提出的方法与通用GPU上或边缘GPU上最先进的的目标检测器进行了比较，结果如下表所示：

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

VX：2311123606

往期推荐

🔗

最快 Yolov7 xff xff0c text-align 算法大数据计算机视觉神经网络机器学习

有关Yolov7：最新最快的实时检测框架，最详细分析解释（附源代码）的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
报告回顾丨模型进化狂飙，DetectGPT能否识别最新模型生成结果？ - 2
导读语言模型给我们的生产生活带来了极大便利，但同时不少人也利用他们从事作弊工作。如何规避这些难辨真伪的文字所产生的负面影响也成为一大难题。在3月9日智源Live第33期活动「DetectGPT：判断文本是否为机器生成的工具」中，主讲人Eric为我们讲解了DetectGPT工作背后的思路——一种基于概率曲率检测的用于检测模型生成文本的工具，它可以帮助我们更好地分辨文章的来源和可信度，对保护信息真实、防止欺诈等方面具有重要意义。本次报告主要围绕其功能，实现和效果等展开。（文末点击“阅读原文”，查看活动回放。）Ericmitchell斯坦福大学计算机系四年级博士生，由ChelseaFinn和Chri
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源
7个大一C语言必学的程序 / C语言经典代码大全 - 2
嗨~大家好，这里是可莉！今天给大家带来的是7个C语言的经典基础代码~那一起往下看下去把【程序一】打印100到200之间的素数#includeintmain(){ inti; for(i=100;i 【程序二】输出乘法口诀表#includeintmain(){inti;for(i=1;i 【程序三】判断1000年---2000年之间的闰年#includeintmain(){intyear;for(year=1000;year 【程序四】给定两个整形变量的值，将两个值的内容进行交换。这里提供两种方法来进行交换，第一种为创建临时变量来进行交换，第二种是不创建临时变量而直接进行交换。1.创建临时变量来

Yolov7：最新最快的实时检测框架，最详细分析解释（附源代码）

扩展的高效层聚合网络

基于concatenate模型的模型缩放

Planned re-parameterized convolution

有关Yolov7：最新最快的实时检测框架，最详细分析解释（附源代码）的更多相关文章

随机推荐