YoloV：视频中目标实时检测依然很棒（附源代码下载）

计算机视觉研究院 2023-04-22 原文

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址： https://arxiv.org/pdf/2208.09686.pdf

代码地址： https://github.com/YuHengsss/YOLOV

概述

视频目标检测(VID)具有挑战性，因为目标外观的高度变化以及某些帧中的各种劣化。积极的一面是，与静止图像相比，在视频的某一帧中进行检测可以得到其他帧的支持。因此，如何跨不同帧聚合特征是VID问题的关键。

大多数现有的聚合算法都是为两阶段检测器定制的。但是，由于两阶段的性质，此类检测器通常在计算上很耗时。今天分享的研究者提出了一种简单而有效的策略来解决上述问题，该策略花费了边际开销，并显著提高了准确性。具体来说，与传统的两阶段流水线不同，研究者主张将区域级候选放在一阶段检测之后，以避免处理大量低质量候选。此外，构建了一个新的模块来评估目标框架与其参考框架之间的关系，并指导聚合。

进行了广泛的实验和消融研究以验证新提出设计的有效性，并揭示其在有效性和效率方面优于其他最先进的VID方法。基于YOLOX的模型可以实现可观的性能（例如，在单个2080Ti GPU上的ImageNet VID数据集上以超过30 FPS的速度达到87.5% AP50），使其对大规模或实时应用程序具有吸引力。

背景

视频目标检测可以看作是静止图像目标检测的高级版本。直观地说，可以通过将帧一一输入静止图像目标检测器来处理视频序列。但是，通过这种方式，跨帧的时间信息将被浪费，这可能是消除/减少单个图像中发生的歧义的关键。

如上图所示，视频帧中经常出现运动模糊、相机散焦和遮挡等退化，显着增加了检测的难度。例如，仅通过查看上图中的最后一帧，人类很难甚至不可能分辨出物体在哪里和是什么。另一方面，视频序列可以提供比单个静止图像更丰富的信息。换言之，同一序列中的其他帧可能支持对某一帧的预测。因此，如何有效地聚合来自不同帧的时间消息对于准确性至关重要。从上图可以看出，研究者提出的方法给出了正确的答案。

新框架

考虑到视频的特性（各种退化与丰富的时间信息），而不是单独处理帧，如何从其他帧中为目标帧（关键帧）寻求支持信息对于提高视频检测的准确性起着关键作用。最近的尝试是在准确性上的显着提高证实了时间聚合对问题的重要性。然而，大多数现有方法都是基于两阶段的技术。

如前所述，与一级基础相比，它们的主要缺点是推理速度相对较慢。为了减轻这种限制，研究者将区域/特征选择放在单级检测器的预测头之后。

研究者选择YOLOX作为基础来展示研究者的主要主张。提出的框架如上图所示。

让我们回顾一下传统的两阶段管道：

1）首先“选择”大量候选区域作为提议；

2）确定每个提议是否是一个目标以及它属于哪个类。计算瓶颈主要来自于处理大量的低置信区域候选。

从上图可以看出，提出的框架也包含两个阶段。不同的是，它的第一阶段是预测（丢弃大量低置信度的区域），而第二阶段可以被视为区域级细化（通过聚合利用其他帧）。

通过这一原则，新的设计可以同时受益于一级检测器的效率和从时间聚合中获得的准确性。值得强调的是，如此微小的设计差异会导致性能上的巨大差异。所提出的策略可以推广到许多基础检测器，例如YOLOX、FCOS和PPYOLOE。

此外，考虑到softmax的特性，可能一小部分参考特征持有大部分权重。换句话说，它经常忽略低权重的特征，这限制了可能后续使用的参考特征的多样性。

为了避免这种风险，研究者引入了平均池化参考特征（A.P.）。具体来说，选择相似度得分高于阈值τ的所有参考，并将平均池化应用于这些。请注意，这项工作中的相似性是通过N (Vc)N(Vc)T计算的。算子N(·)表示层归一化，保证值在一定范围内，从而消除尺度差异的影响。通过这样做，可以维护来自相关特征的更多信息。然后将平均池化特征和关键特征传输到一个线性投影层中进行最终分类。该过程如是上图所示。

有人可能会问，N(Qc)N(Kc)T或N(Qr)N(Kr)T是否可以作为相似度执行。事实上，这是另一种选择。但是，在实践中，由于Q和K之间的差异，它不像我们在训练期间的选择那样稳定。

实验及可视化

对于给定的关键候选，通过三种不同方法选择的参考候选之间的视觉比较。展示了4个在聚合中贡献最大的参考候选。

具体来说，在下表的上半部分，研究者报告了所涉及的竞争模型的性能，而没有采用任何后处理。由于一级检测器的特性和研究者的策略的有效性，YOLOV可以显著利用检测精度和推理效率。为了公平比较，下表中列出的所有模型都在相同的硬件环境下进行了测试，除了MAMBA和查询属性。下表的下半部分报告了YOLOV和其他带有后处理的SOTA模型的结果。在i7-8700K CPU上测试后处理的时间成本。

上排是基础的检测结果，下排是YoloV的结果

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、图像分割、模型量化、模型部署等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

VX：2311123606

往期推荐

01	● Yolov7：最新最快的实时检测框架，最详细分析解释（附源代码）
	► 点击阅读

02	● ECCV2022：在Transformer上进行递归，不增参数，计算量还少！
	► 点击阅读

03	● 改进的YOLO：AF-FPN替换金字塔模块提升目标检测精度
	► 点击阅读

04	● QueryDet：级联稀疏query加速高分辨率下的小目标检测（代码已开源）
	► 点击阅读

YoloV 视频 xff0c xff xff0 大数据算法编程语言 python 计算机视觉

有关YoloV：视频中目标实时检测依然很棒（附源代码下载）的更多相关文章

ruby - 如何在 buildr 项目中使用 Ruby 代码？ - 2
如何在buildr项目中使用Ruby？我在很多不同的项目中使用过Ruby、JRuby、Java和Clojure。我目前正在使用我的标准Ruby开发一个模拟应用程序，我想尝试使用Clojure后端(我确实喜欢功能代码)以及JRubygui和测试套件。我还可以看到在未来的不同项目中使用Scala作为后端。我想我要为我的项目尝试一下buildr(http://buildr.apache.org/)，但我注意到buildr似乎没有设置为在项目中使用JRuby代码本身!这看起来有点傻，因为该工具旨在统一通用的JVM语言并且是在ruby中构建的。除了将输出的jar包含在一个独特的、仅限ruby
ruby-on-rails - Rails 源代码 : initialize hash in a weird way? - 2
在rails源中:https://github.com/rails/rails/blob/master/activesupport/lib/active_support/lazy_load_hooks.rb可以看到以下内容@load_hooks=Hash.new{|h,k|h[k]=[]}在IRB中，它只是初始化一个空哈希。和做有什么区别@load_hooks=Hash.new 最佳答案查看rubydocumentationforHashnew→new_hashclicktotogglesourcenew(obj)→new_has
ruby - 如何使用 Ruby aws/s3 Gem 生成安全 URL 以从 s3 下载文件 - 2
我正在编写一个小脚本来定位aws存储桶中的特定文件，并创建一个临时验证的url以发送给同事。(理想情况下，这将创建类似于在控制台上右键单击存储桶中的文件并复制链接地址的结果)。我研究过回形针，它似乎不符合这个标准，但我可能只是不知道它的全部功能。我尝试了以下方法:defauthenticated_url(file_name,bucket)AWS::S3::S3Object.url_for(file_name,bucket,:secure=>true,:expires=>20*60)end产生这种类型的结果:...-1.amazonaws.com/file_path/file.zip.A
ruby - RuntimeError(自动加载常量 Apps 多线程时检测到循环依赖 - 2
我收到这个错误:RuntimeError(自动加载常量Apps时检测到循环依赖当我使用多线程时。下面是我的代码。为什么会这样？我尝试多线程的原因是因为我正在编写一个HTML抓取应用程序。对Nokogiri::HTML(open())的调用是一个同步阻塞调用，需要1秒才能返回，我有100,000多个页面要访问，所以我试图运行多个线程来解决这个问题。有更好的方法吗？classToolsController0)app.website=array.join(',')putsapp.websiteelseapp.website="NONE"endapp.saveapps=Apps.order("
ruby-on-rails - 浏览 Ruby 源代码 - 2
我的主要目标是能够完全理解我正在使用的库/gem。我尝试在Github上从头到尾阅读源代码，但这真的很难。我认为更有趣、更温和的踏脚石就是在使用时阅读每个库/gem方法的源代码。例如，我想知道RubyonRails中的redirect_to方法是如何工作的:如何查找redirect_to方法的源代码？我知道在pry中我可以执行类似show-methodmethod的操作，但我如何才能对Rails框架中的方法执行此操作？您对我如何更好地理解Gem及其API有什么建议吗？仅仅阅读源代码似乎真的很难，尤其是对于框架。谢谢! 最佳答案 Ru
ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2
当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub
ruby - 模块嵌套代码风格偏好 - 2
我的假设是moduleAmoduleBendend和moduleA::Bend是一样的。我能够从thisblog找到解决方案,thisSOthread和andthisSOthread.为什么以及什么时候应该更喜欢紧凑语法A::B而不是另一个，因为它显然有一个缺点？我有一种直觉，它可能与性能有关，因为在更多命名空间中查找常量需要更多计算。但是我无法通过对普通类进行基准测试来验证这一点。最佳答案这两种写作方法经常被混淆。首先要说的是，据我所知，没有可衡量的性能差异。(在下面的书面示例中不断查找)最明显的区别，可能也是最著名的，是你的
ruby - 寻找通过阅读代码确定编程语言的ruby gem？ - 2
几个月前，我读了一篇关于rubygem的博客文章，它可以通过阅读代码本身来确定编程语言。对于我的生活，我不记得博客或gem的名称。谷歌搜索“ruby编程语言猜测”及其变体也无济于事。有人碰巧知道相关gem的名称吗？最佳答案是这个吗:http://github.com/chrislo/sourceclassifier/tree/master 关于ruby-寻找通过阅读代码确定编程语言的rubygem？，我们在StackOverflow上找到一个类似的问题：
ruby - Net::HTTP 获取源代码和状态 - 2
我目前正在使用以下方法获取页面的源代码:Net::HTTP.get(URI.parse(page.url))我还想获取HTTP状态，而无需发出第二个请求。有没有办法用另一种方法做到这一点？我一直在查看文档，但似乎找不到我要找的东西。最佳答案在我看来，除非您需要一些真正的低级访问或控制，否则最好使用Ruby的内置Open::URI模块:require'open-uri'io=open('http://www.example.org/')#=>#body=io.read[0,50]#=>"["200","OK"]io.base_ur
程序员如何提高代码能力？ - 2
前言作为一名程序员，自己的本质工作就是做程序开发，那么程序开发的时候最直接的体现就是代码，检验一个程序员技术水平的一个核心环节就是开发时候的代码能力。众所周知，程序开发的水平提升是一个循序渐进的过程，每一位程序员都是从“菜鸟”变成“大神”的，所以程序员在程序开发过程中的代码能力也是根据平时开发中的业务实践来积累和提升的。提高代码能力核心要素程序员要想提高自身代码能力，尤其是新晋程序员的代码能力有很大的提升空间的时候，需要针对性的去提高自己的代码能力。提高代码能力其实有几个比较关键的点，只要把握住这些方面，就能很好的、快速的提高自己的一部分代码能力。1、多去阅读开源项目，如有机会可以亲自参与开源

YoloV：视频中目标实时检测依然很棒（附源代码下载）

有关YoloV：视频中目标实时检测依然很棒（附源代码下载）的更多相关文章

随机推荐