常见经典目标检测算法

位俊超 2023-07-25 原文

1、目标检测基本概念

1.1 什么是目标检测

目标检测(Object Dectection)的任务是找出图像中所有感兴趣的目标（物体），确定他们的类别和位置。

1.2 目标检测要解决的核心问题

除图像分类外，目标检测要解决的核心问题是：
1.目标可能出现在图像的任何位置。
2.目标有各种不同的大小。
3.目标可能有各种不同的形状。

1.3 目标检测算法分类

Two stage目标检测算法
先进行区域生成（region proposal,RP）(一个可能包含待检测物体的预选框)，再通过卷积神经网络进行样本分类。
任务：特征提取->生成RP->分类/定位回归。
常见Two stage目标检测算法有:R-CNN、SPP-Net、Fast R-CNN和R-FCN等。
One stage 目标检测算法
不用RP，直接在网络中提取特征来预测物体分类和位置。
任务：特征提取->分类/定位回归。
常见的one stage目标检测算法有：OverFeat、YOLOv1、YOLOv3、SSD和RetinaNet等。

1.4 应用领域

人脸检测
行人检测
车辆检测
道路检测
障碍物检测
等等

2、Two stage 目标检测算法

2.1 R-CNN

2.1.1 R-CNN 创新点

使⽤CNN（ConvNet）对 region proposals 计算 feature vectors。从经验驱动特征（SIFT、HOG）到数据驱动特征（CNN feature map），提⾼特征对样本的表⽰能⼒。
采⽤⼤样本下（ILSVRC）有监督预训练和⼩样本（PASCAL）微调（fine-tuning）的⽅法解决⼩样本难以训练甚⾄过拟合等问题。

注：ILSVRC其实就是众所周知的ImageNet的挑战赛，数据量极⼤；PASCAL数据集（包含⽬标检测和图像分割等），相对较⼩。

2.1.2 R-CNN 介绍

R-CNN作为R-CNN系列的第⼀代算法，其实没有过多的使⽤“深度学习”思想，⽽是将“深度学习”和传统的“计算机视觉”的知识相结合。⽐如R-CNN pipeline中的第⼆步和第四步其实就属于传统的“计算机视觉”技术。使⽤selective search提取region proposals，使⽤SVM实现分类。

预训练模型。选择一个预训练模型（pre-trained）神经网络(如AlexNet、VGG)。
重新训练全连接层使用需要检测的目标重新训练(re-train)最后全连接层(connected layer)。
提取prosals并计算CNN特征。利用选择性搜索(Slective Search)算法提取所有prosals（大约2000幅images）,调整(resize/warp)它们固定大小，以满足CNN输入，然后将feature map保存到本地磁盘。
训练SVM。利用feature map训练SVM来对目标和背景进行分类(每个类一个二进制SVM）。
边界框回归(Bounding boxes Regression)。训练将输出一些校正因子的线性回归分类器。

2.1.3 R-CNN实验结果

R-CNN在VOC 2007测试集上mAP达到58.5%，打败当时所有的⽬标检测算法。

2.2 Fast R-CNN

2.2.1 Fast R-CNN有哪些创新点？

只对整幅图像进行一次特征提取。
⽤RoI pooling层替换最后⼀层的max pooling层，同时引⼊建议框数据，提取相应建议框特征。
Fast R-CNN⽹络末尾采⽤并⾏的不同的全连接层，可同时输出分类结果和窗⼝回归结果， 实现了end-to-end的多任务训练【建议框提取除外】，也不需要额外的特征存储空间【RCNN中的特征需要保持到本地，来供SVMBounding-box regression进⾏训练】。
采⽤SVD对Fast R-CNN⽹络末尾并⾏的全连接层进⾏分解，减少计算复杂度，加快检测速度。

2.2.2 Fast R-CNN 介绍

Fast R-CNN是基于R-CNN和SPPnets进⾏的改进。SPPnets，其创新点在于计算整幅图像的the shared feature map，然后根据object proposal在shared feature map上映射到对应的feature vector（就是不⽤重复计算feature map了）。当然，SPPnets也有缺点：和R-CNN⼀样，训练是多阶段（multiple-stage pipeline）的，速度还是不够"快"，特征还要保存到本地磁盘中。

将候选区域直接应⽤于特征图，并使⽤RoI池化将其转化为固定⼤⼩的特征图块。以下是Fast R-CNN的流程图

2.2.3 RoI Pooling 层详解

因为Fast R-CNN使⽤全连接层，所以应⽤RoI Pooling将不同⼤⼩的ROI转换为固定⼤⼩。
RoI Pooling 是Pooling层的⼀种，⽽且是针对RoI的Pooling，其特点是输⼊特征图尺⼨不固定，但是输出特征图尺⼨固定（如7x7）

什么是RoI呢？
RoI是Region of Interest的简写，⼀般是指图像上的区域框，但这⾥指的是由Selective Search提取的候选框。

提取候选框
往往经过RPN后输出的不⽌⼀个矩形框，所以这⾥我们是对多个RoI进⾏Pooling。
RoI Pooling的输入
输⼊有两部分组成：
1. 特征图（feature map）：指的是上⾯所⽰的特征图，在Fast RCNN中，它位于RoI Pooling
  之前，在Faster RCNN中，它是与RPN共享那个特征图，通常我们常常称之
  为“share_conv”；
2. RoIs，其表⽰所有RoI的N*5的矩阵。其中N表⽰RoI的数量，第⼀列表⽰图像index，其余四
  列表⽰其余的左上⾓和右下⾓坐标。

在Fast RCNN中，指的是Selective Search的输出；在Faster RCNN中指的是RPN的输出，⼀堆矩形候选框，形状为1x5x1x1（4个坐标+索引index），其中值得注意的是：坐标的参考系不是针对feature map这张图的，⽽是针对原图的（神经⽹络最开始的输⼊）。其实关于ROI的坐标理解⼀直很混乱，到底是根据谁的坐标来。其实很好理解，我们已知原图的⼤⼩和由Selective Search算法提取的候选框坐标，那么根据"映射关系"可以得出特征图（featurwe map）的⼤⼩和候选框在feature map上的映射坐标。⾄于如何计算，其实就是⽐值问题，下⾯会介绍。所以这⾥把ROI理解为原图上各个候选框（region proposals），也是可以的。

2.2.4 RoI 的具体操作

根据输入image，将ROI映射到feature map 对应位置
注：映射规则比较简单，就是把各个坐标除以“输入图片与feature map的大小的比值”，得到了feature map上的box坐标。
2.将映射后的区域划分为相同大小的sections(sections数量与输出的维度相同)
3.对每个sections进行max pooling操作。

这样我们就可以从不同大小的方框得到固定大小的相应的feature maps。值得⼀提的是，输出的feature maps的大小不取决于ROI和卷积feature maps大小。RoI Pooling 最大的好处就在于极大地提高了处理速度。

2.2.5 ROI Pooling的输出

输出是batch个vector，其中batch的值等于ROI的个数，vector的大小为channelwh;ROI Pooling的过程就是将一个个大小不同的box矩形框，都映射成大小固定(w*h)的矩形框。
ROI Pooling 示例

2.3 Faster R-CNN

2.3.1 Faster R-CNN有哪些创新点？

Fast R-CNN依赖于外部候选区域⽅法，如选择性搜索。但这些算法在CPU上运⾏且速度很慢。在测试中，Fast R-CNN需要2.3秒来进⾏预测，其中2秒⽤于⽣成2000个ROI。Faster R-CNN采用与Fast R-CNN相同的设计，只是它⽤内部深层⽹络代替了候选区域⽅法。新的候选区域⽹络（RPN）在⽣成ROI时效率更⾼，并且以每幅图像10毫秒的速度运行。

候选区域⽹络（RPN）将第⼀个卷积网络的输出特征图作为输⼊。它在特征图上滑动⼀个3×3的卷积核，以使用卷积⽹络（如下所示的ZF网络）构建与类别⽆关的候选区域。其他深度⽹络（如VGG或ResNet）可⽤于更全⾯的特征提取，但这需要以速度为代价。ZF网络最后会输出256个值，它们将馈送到两个独立的全连接层，以预测边界框和两个objectness分数，这两个objectness分数度量了边界框是否包含⽬标。我们其实可以使⽤回归器计算单个objectness分数，但为简洁起⻅，Faster R-CNN使⽤只有两个类别的分类器：即带有⽬标的类别和不带有⽬标的类别。

常见经典 xff xff0c xff0 目标检测算法人工智能

有关常见经典目标检测算法的更多相关文章

ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
区块链之加解密算法&数字证书 - 2
目录一.加解密算法数字签名对称加密DES(DataEncryptionStandard)3DES(TripleDES)AES(AdvancedEncryptionStandard)RSA加密法DSA(DigitalSignatureAlgorithm)ECC(EllipticCurvesCryptography)非对称加密签名与加密过程非对称加密的应用对称加密与非对称加密的结合二.数字证书图解一.加解密算法加密简单而言就是通过一种算法将明文信息转换成密文信息，信息的的接收方能够通过密钥对密文信息进行解密获得明文信息的过程。根据加解密的密钥是否相同，算法可以分为对称加密、非对称加密、对称加密和非
7个大一C语言必学的程序 / C语言经典代码大全 - 2
嗨~大家好，这里是可莉！今天给大家带来的是7个C语言的经典基础代码~那一起往下看下去把【程序一】打印100到200之间的素数#includeintmain(){ inti; for(i=100;i 【程序二】输出乘法口诀表#includeintmain(){inti;for(i=1;i 【程序三】判断1000年---2000年之间的闰年#includeintmain(){intyear;for(year=1000;year 【程序四】给定两个整形变量的值，将两个值的内容进行交换。这里提供两种方法来进行交换，第一种为创建临时变量来进行交换，第二种是不创建临时变量而直接进行交换。1.创建临时变量来
git使用常见问题（提交代码，合并冲突） - 2
文章目录git常用命令（简介，详细参数往下看）Git提交代码步骤gitpullgitstatusgitaddgitcommitgitpushgit代码冲突合并问题方法一：放弃本地代码方法二：合并代码常用命令以及详细参数gitadd将文件添加到仓库：gitdiff比较文件异同gitlog查看历史记录gitreset代码回滚版本库相关操作远程仓库相关操作分支相关操作创建分支查看分支：gitbranch合并分支：gitmerge删除分支：gitbranch-ddev查看分支合并图：gitlog–graph–pretty=oneline–abbrev-commit撤消某次提交git用户名密码相关配置g
Hive SQL 五大经典面试题 - 2
目录第1题连续问题分析：解法：第2题分组问题分析：解法：第3题间隔连续问题分析：解法：第4题打折日期交叉问题分析：解法：第5题同时在线问题分析：解法：第1题连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量iddtlowcarbon10012021-12-1212310022021-12-124510012021-12-134310012021-12-134510012021-12-132310022021-12-144510012021-12-1423010022021-12-154510012021-12-1523.......找出连续3天及以上减少碳排放量在100以上的用户分析：遇到这类
ruby - 将对象设置为 nil 是否很常见？ - 2
我正在构建一个应用程序，想知道是否将未使用的对象设置为nil是生产级编码中的常见做法。我知道这只是垃圾收集器的提示，并不总是处理对象。最佳答案根据这个thread如果您使用完一个成员对象，将其设置为nil将引发被引用对象被垃圾回收。如果它是局部变量，方法exit将做同样的事情。也就是说，如果您要求将成员显式设置为nil，我会质疑您的设计。关于ruby-将对象设置为nil是否很常见？，我们在StackOverflow上找到一个类似的问题： https://
ruby - 变量赋值后的 if 语句 - 有多常见？ - 2
我最近与一位同事讨论了以下Ruby语法:value=ifa==0"foo"elsifa>42"bar"else"fizz"end我个人并没有看到太多这种逻辑，但我的同事指出，这实际上是一种相当普遍的Rubyism。我试着用谷歌搜索这个主题，但没有找到任何文章、页面或SO问题来讨论它，这让我相信这可能是一种非常实际的技术。然而，另一位同事发现语法令人困惑，而是将上面的逻辑写成这样:ifa==0value="foo"elsifa>42value="bar"elsevalue="fizz"end缺点是value=的重复声明和隐式elsenil的丢失，如果我们想使用它的话。这也感觉它与Ruby
ruby - 检测由 RSpec、Ruby 运行的代码 - 2
我想知道我的代码是否在rspec下运行。这可能吗？原因是我正在加载一些错误记录器，这些记录器在测试期间会被故意错误(expect{x}.toraise_error)弄得乱七八糟。我查看了我的ENV变量，没有(明显的)测试环境变量的迹象。最佳答案在spec_helper.rb的开头添加:ENV['RACK_ENV']='test'现在您可以在代码中检查RACK_ENV是否经过测试。关于ruby-检测由RSpec、Ruby运行的代码，我们在StackOverflow上找到一个类似的问题
ruby - 使用 Ruby Daemons gem 检测停止 - 2
我正在使用rubydaemongem。想知道如何向停止操作添加一些额外的步骤？希望我能检测到停止被调用，并向其添加一些额外的代码。任何人都知道我如何才能做到这一点？最佳答案查看守护程序gem代码，它似乎没有用于此目的的明显扩展点。但是，我想知道(在守护进程中)您是否可以捕获守护进程在发生“停止”时发送的KILL/TERM信号...？trap("TERM")do#executeyourextracodehereend或者你可以安装一个at_exit钩子(Hook):-at_exitdo#executeyourextracodehe
ruby - Ruby 脚本如何检测到它正在 irb 中运行？ - 2
我有一个定义类的Ruby脚本。我希望脚本执行语句BoolParser.generate:file_base=>'bool_parser'仅当脚本作为可执行文件被调用时，而不是当它被irbrequire(或通过-r在命令行上传递)时。我可以用什么来包装上面的语句，以防止它在我的Ruby文件加载时执行？最佳答案条件$0==__FILE__...!/usr/bin/ruby1.8classBoolParserdefself.generate(args)p['BoolParser.generate',args]endendif$0==_