CVPR2022 多目标跟踪（MOT）汇总

藏晖 2023-09-08 原文

一、《DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion》

作者: Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo
The University of Hong Kong, Carnegie Mellon University, ByteDance Inc

论文链接：https://arxiv.org/pdf/2111.14690.pdf
Github：https://github.com/DanceTrack/DanceTrack

1、摘要

当前的多目标跟踪采用检测器来进行目标定位，并用ReID模型来实现数据关联。然而在现在的MOT Challenge数据集中，目标的外观是具有足够的区分性的，而这种区分性使得ReID模型很容易区分目标，实现数据关联。此外，当前的数据集中目标的运动模式比较简单，目标运动都可以被近似为匀速线性运动。而这种目标与现实场景中的数据关联是存在一些bias的，我们实际中通常跟踪的目标具有相同的外观表征，同时其运动姿态也会更多样。为此，本文作者提出了一个“DanceTrack”的数据集，希望其能提供一个更好的平台来开发更多的MOT算法，更少地依赖于视觉辨别，更多地依赖于运动分析。

2、方法

在上述中，已经提到了DanceTrack的提出动机，下图也是数据集中的一些示例。

以下是DanceTrack与MOT Challenge数据集的比较。

🔺在论文中也给出了很详细地分析，这个数据集的提出也说明了未来多目标跟踪研究的一个趋势，会去关注运动更加复杂，目标外观更相似的场景（后续的SoccerNet也有相似的Motivation）。

二、《SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos》

作者: Anthony Cioppa, Silvio Giancola, Adrien Deliege, Le Kang, Xin Zhou, Zhiyu Cheng, Bernard Ghanem, Marc Van Droogenbroeck
University of Li`ege, KAUST, Baidu Research

论文链接：https://arxiv.org/pdf/2204.06918.pdf
Github：www.soccer-net.org

1、摘要

在足球视频中跟踪物体对于收集球员和球队的统计数据非常重要，无论是估计总距离、控球还是队形。视频处理可以帮助自动提取这些信息，而不需要任何携带型传感器，因此适用于任何体育场上的任何球队。然而，当前的数据集来测评这个问题是比较困难的。因此，在本项工作中，我们提出了一个新的多目标跟踪数据集，由200个序列组成，每个序列30秒，代表具有挑战性的足球场景，和一个完整的45分钟的半场用于测评长期跟踪。该数据集完成了目标框和轨迹ID的完成标注，允许各种方法在各基准上做测评。该数据集也验证了当前MOT方法在这种快速运动和严重遮挡的领域中并没有很好的解决。因此作者也希望通过该数据集的提出来促进该部分研究的进行。

2、方法

SoccerNet的数据集示例如图所示。

以下是SoccerNet与MOT数据集的比较。

三、《MeMOT: Multi-Object Tracking with Memory》

作者: Jiarui Cai，Mingze Xu， Wei Li， Yuanjun Xiong， Wei Xia， Zhuowen Tu， Stefano Soatto
University of Washington，AWS AI Labs

论文链接：https://arxiv.org/pdf/2203.16761.pdf

1、摘要

我们提出了一种在线跟踪算法，在一个公共框架下执行对象检测和数据关联，能够在长时间跨度后链接对象。这是通过保留一个大的时空内存来存储被跟踪对象的ID Embeddings，并根据需要自适应地从内存中引用和聚合有用的信息来实现关联。该模型称为MeMOT，由三个主要模块组成，它们都是基于Transformer的：1)、假设生成（Hypothesis Generation），在当前视频帧中生成目标proposals；2)、内存编码（Memory Encoding），从每个被跟踪对象的内存中提取核心信息；3)、内存解码（Memory Decoding），同时解决目标检测和数据关联任务，进行多目标跟踪。当在广泛采用的MOT基准数据集上进行评估时，MeMOT观察到非常具有竞争性的性能。

2、方法

🔺这篇文章的特点是通过Transformer的结构搭建了一个端到端的MOT框架，不需要后处理，性能和当前的SOTA比不是很高，但是具有一定的竞争力。作者在文中没有提到推理速度，感觉这个框架速度应该是一弱项。

要理解这个框架，主要是了解作者提出的三个模块。

1）假设生成（Hypothesis Generation）：该模块通过Transformer的Encoder和Decoder生成一组proposal embeddings。这组embeddings有两个作用，一个是表示当前帧新出现的一些目标，另一个是为已经在跟踪状态的目标提供新的位置信息和外观信息。

2）内存编码（Memory Encoding）：这个模块通过Cross-Attn Module来维护每一个instance的两个特征，一个关注短时信息，一个关注长时信息，最后把他们concat在一起去提取每一个instance的特征。长时特征是做了动态更新的，但是作者在文中没有说明更新的方式。

3）内存解码（Memory Decoding）：将track的embedding和embedding proposal拼接起来，作为Q，并用当前帧的特征做K和V，通过一个Solver直接预测出Bounding Box，Objectness Score和Uniqueness Score。并通过这些值的组合直接获得最后的检测和数据关联结果。

四、《Learning of Global Objective for Network Flow in Multi-Object Tracking》

作者: Shuai Li，Yu Kong，Hamid Rezatofighi
Rochester Institute of Technology，Monash University

论文链接：https://arxiv.org/pdf/2203.16210.pdf

1、摘要

这篇工作研究了基于最小代价流公式（MCF）的多目标跟踪问题，并将其视为一个线性规划的实例进行研究。根据给出的计算性推理，MCF的成果跟踪极大地依赖于底层线性的可学习代价函数。以往的研究大多数聚焦于如何在训练过程中考虑两帧信息来学习代价函数，因此学习到的代价函数对于MCF来说是次优的。在推理过程中，必须在多帧上考虑进行数据关联。为了解决这一问题，本文提出了一种新的可微框架，通过解决一个双层优化问题将训练和推理相关联。其中底层解决了一个线性程序关联的问题，上层为一个包含全局跟踪结果的损失函数。可微层通过梯度下降进行反向传播，明确地学习和正则化全局参数化代价函数。通过这种方法，我们能够学习一个更好的全局MCF目标跟踪器。在MOT16、MOT17和MOT20上，与目前最先进的方法相比，本文的跟踪器取得了具有竞争力的性能。

2、方法

在这个方法中，作者先通过已有的网络提取目标定位信息，和每一个目标的外观特征。这些外观的特征会构建一个有向的图（方向和时序方向相同）。一个MLP层用于回归不同目标之间的连接概率。在训练过程中通过全局最优化的方法来构建损失优化MLP的参数，而在推理过程中，可以通过训练好的MLP网络直接预测结果进行tracking。

全文的推理部分比较多，但是全是涉及怎么通过全局最小代价的方法来训练MLP的。需要细致了解该工作可以去看原文。本博客较关心的是作者用了MLP做了什么，输入是什么，最后怎么推理。

MLP主要用于预测两个detection结果之间是否可以关联，如果可以关联会预测出一个概率，其式子如下：

其中eij表示的是两个detection之间的边是如何构建的（包括尺度、中心距离、框的IOU、embedding的距离等），如下式：

在推理的时候，文中提到会利用基于一个长度为50帧~150帧的批次进行跟踪（预测连接概率，算最小代价流）。并用了Gurobi求解器来获得最后的数据关联结果。由于每一个批次都覆盖了重复帧，所以可以把短轨关联成长轨。

在后处理中作者还用了单目标跟踪器。

五、《Global Tracking Transformers》

作者: Xingyi Zhou，Tianwei Yin，Vladlen Koltun，Phillip Kr¨ahenb¨uhl
The University of Texas at Austin，Apple

论文链接：https://arxiv.org/abs/2203.13250
代码链接：https://github.com/xingyizhou/GTR

1、摘要

我们提出一种新的基于Transfomer的结构用于全局多目标跟踪。我们的网络把一段短的视频序列作为输入，并预测所有对象的运行轨迹。其核心部分是一个全局tracking transformer，用于操作序列中所有帧中的目标。Transfomer网络对所有帧中的对象特征进行编码，并使用queries将它们分组为轨迹。轨迹的queries是来自单个帧的对象特征，并自然地产生独特的轨迹。我们的全局tracking transformer不需要中间的成对分组或组合关联，并且可以与目标检测器联合训练。它在流行的MOT17基准测试上取得了具有竞争力的性能，有75.3MOTA和59.1HOTA。更重要的是，我们的框架无缝地集成到最先进的大型vocabulary检测器中，以跟踪任何对象。在具有挑战性的TAO数据集上进行的实验表明，我们的框架改进了基于成对关联的方法。

🔺本文的Motivation是搭建个网络可以直接从32帧的图像中学习一种匹配结果，而不是逐帧做一个匹配。

2、方法

图中所示的是所提出的Global Tracking Transformer。其中F表示的是多帧的detection结果所提取的特征（其中N表示数量，D表示维度），Q表示用来检索的tracklet的特征（其中M表示数量，D表示维度）。通过Transformer的方式，直接预测获得一个匹配结果G，其中的数值预测每一个轨迹和每一个目标的关联关系，即 git(qk, F) ∈ R表示第t帧第i个目标与该轨迹的关联关系，该值为0表示这个目标与该轨迹没有关联关系。

在获得了G矩阵之后，在每一帧中单独对同一个轨迹的匹配分数做一次Softmax，得到：

通过找最大的概率，可以直接获得一条轨迹。在训练过程中，作者通过最大化PA来让网络学会这种能力。

而在测试过程中，感觉和DeepSort的过程依然比较像，不同的是Deepsort直接用了embedding的距离来构建匹配矩阵，而这个是通过transformer网络所预测出来的PA，之后用Hungarian来保持唯一的匹配结果。

六、《Unified Transformer Tracker for Object Tracking》

作者: Fan Ma，Mike Zheng Shou，Linchao Zhu，Haoqi Fan，Yilei Xu， Yi Yang， Zhicheng Yan
ReLER Lab, AAII, University of Technology Sydney，National University of Singapore，Meta AI，Zhejiang University

论文链接：https://arxiv.org/pdf/2203.15175v1.pdf

1、摘要

目标跟踪作为计算机视觉中的一个重要领域，已经形成了两个独立的社区，分别研究单目标跟踪(SOT)和多目标跟踪(MOT)。然而，由于两种任务的训练数据集和跟踪对象的不同，目前的一种跟踪场景的方法不容易适应另一种跟踪场景。虽然UniTrack[45]证明了可以使用具有多个头部的共享外观模型来处理单个跟踪任务，但它没有利用大规模跟踪数据集进行训练，并且在单目标跟踪上表现较差。在这项工作中，我们提出了Unified Transformer Tracker (UTT) ，以解决不同场景下的跟踪问题。我们在UTT中构架了一个Transformer Tracker在SOT和MOT中跟踪目标，利用目标特征和跟踪帧特征之间的相关性来定位目标。我们证明了SOT和MOT任务都可以在这个框架内得到解决，并且该模型可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时进行端到端训练。在SOT和MOT数据集上训练了一个统一的模型，在几个基准测试上进行了广泛的实验。

🔺相比于UniTrack这篇工作解决了在SOT和MOT两个数据集上训练的问题，在SOT任务上提点明显，而MOT上还有一些差距可能是未来Unit类方法可以继续完善的地方。

2、方法

我们首先使用主干Φ来提取帧特征。 Transformer Tracker 有三个输入，包括参考帧和跟踪帧（当前帧），以及参考帧中的目标框。Transformer Tracker的目标是预测当前帧中的目标定位。首先使用Transformer Tracker中的Target Decoder提取目标特征，Proposal Decoder在跟踪帧中产生候选搜索区域。目标特征和搜索特征都被输入Target Tansformer以预测目标定位。

该方法在MOT中还是需要一个额外的detector来完成目标的定位。

汇总 CVPR xff0c xff xff0 深度学习人工智能

有关CVPR2022 多目标跟踪（MOT）汇总的更多相关文章

映宇宙2022年营收63亿元：同比下降三成，毛利率提升4.3个百分点 - 2
3月26日，映宇宙（HK:03700，即“映客”）发布截至2022年12月31日的2022年度业绩财务报告。财报显示，映宇宙2022年的总营收为63.19亿元，较2021年同期的91.76亿元下降31.1%。2022年，映宇宙的经营亏损为4698.7万元，2021年同期则为净利润4.57亿元；期内亏损（净亏损）为1.68亿元，2021年同期的净利润为4.33亿元；非国际财务报告准则经调整净利润为3.88亿元，2021年同期为4.82亿元，同比下降19.6%。映宇宙在财报中表示，收入减少主要是由于行业竞争加剧，该集团对旗下产品采取更为谨慎的运营策略以应对市场变化。不过，映宇宙的毛利率则有所提升
常见网络安全产品汇总（私信发送思维导图） - 2
安全产品安全网关类防火墙Firewall防火墙防火墙主要用于边界安全防护的权限控制和安全域的划分。防火墙•信息安全的防护系统，依照特定的规则，允许或是限制传输的数据通过。防火墙是一个由软件和硬件设备组合而成，在内外网之间、专网与公网之间的界面上构成的保护屏障。下一代防火墙•下一代防火墙，NextGenerationFirewall，简称NGFirewall，是一款可以全面应对应用层威胁的高性能防火墙，提供网络层应用层一体化安全防护。生产厂家•联想网御、CheckPoint、深信服、网康、天融信、华为、H3C等防火墙部署部署于内、外网编辑额，用于权限访问控制和安全域划分。UTM统一威胁管理（Un
ruby - 如何从 URL 中删除 Google 跟踪参数 (UTM)？ - 2
我有一堆要清理的URL。它们都包含UTM参数，在这种情况下不是必需的，或者是有害的。示例:http://houseofbuttons.tumblr.com/post/22326009438?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+HouseOfButtons+%28House+of+Buttons%29所有可能的参数都以utm_开头。如何使用ruby脚本/结构轻松删除它们而不破坏其他潜在的“好”URL参数？最佳答案您可以将正则表达式应用于url以清
ruby-on-rails - Rails Asset Pipeline 更好的错误或堆栈跟踪 - 2
刚刚将应用程序从rails3.0.9升级到3.2.1，当我运行bundleexecrakeassets:precompile时出现错误，这很好，但是回溯没有告诉我在哪里语法问题来self的css或scss文件。我尝试对“0ee5c0e69c92af0”进行greping，但该字符串没有出现在我的项目中。bundleexecrakeassets:precompile:allRAILS_ENV=productionRAILS_GROUPS=assets--trace**Invokeassets:precompile:all(first_time)**Executeassets:precom
ruby - 使用 gmail gem 跟踪一些电子邮件 - 2
我正在使用gmailgem发送电子邮件，我需要跟踪这些电子邮件。我该怎么做？我正在尝试搜索带有message_id的电子邮件，但它会从我的收件箱中提取所有电子邮件，而我只想要特定电子邮件的回复。这是我的实际代码:*使用message_id保存电子邮件*mail=gmail.deliver(email)Email.create(:message_id=>mail.message_id,:from=>user.email,:to=>annotation.to,:body=>annotation.content,:title=>annotation.title,:annotation=>an
ruby - 如何跟踪 paper_trail 中的自定义事件？ - 2
我正在使用paper_trail进行审计跟踪。除了创建、更新和删除事件外，我还想跟踪一些自定义事件，例如查看(记录)、发送(电子邮件)等。我们如何在审核模型时引入此类自定义事件？最佳答案我发现了一个调整，可以在paper_trail管理的Version中添加自定义事件:Version.create(item_type:"Campaign",item_id:campaign.id,event:"Sent")也许这不是正确的解决方案，但它帮助我实现了目标。我想更多地探索paper_trail以找到更好的解决方案。
ruby - Watir-Webdriver 是否支持点击目标为 javascript 的链接？ - 2
我是Ruby和Watir-Webdriver的新手。我有一套用VBScript编写的站点自动化程序，我想将其转换为Ruby/Watir，因为我现在必须支持Firefox。我发现我真的很喜欢Ruby，而且我正在研究Watir，但我已经花了一周时间试图让Webdriver显示我的登录屏幕。该站点以带有“我同意”区域的“警告屏幕”开头。用户点击我同意并显示登录屏幕。我需要单击该区域以显示登录屏幕(这是同一页面，实际上是一个表单，只是隐藏了)。我整天都在用VBScript这样做:objExplorer.Document.GetElementsByTagName("area")(0).click
ruby - 跟踪 Ruby 中的代码？ - 2
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭7年前。Improvethisquestion有没有一种运行脚本并查看所有步骤的好方法:执行了哪些代码代码在哪个文件中返回什么错误信息这将是了解开源项目如何运作的好方法。Ruby没有这样的解决方案吗？例如。require"httparty"HTTParty.get"http://www.google.se"然后它会运行代码并向我展示它正在执行的所有代码，其中的文件和行、返回的对象、错误消息等。
酷早报：10月21日全球Web3加密行业重大资讯大汇总 - 2
2022年10月21日星期五【数据指标】加密货币总市值：$0.95万亿BTC市值占比：38.51%恐慌贪婪指数：23极度恐慌【今日快讯】1、【政讯】1.1.1、美联储布拉德：市场预期美联储11月会加息75个基点1.1.2、美联储哈克：将维持加息一段时间1.2、美国10年期国债收益率触及4.197%，为2008年6月以来最高1.3、法国数字转型部长：政府将专注于DeFi和Web31.4、巴西ATM机将于11月3日起支持USDT1.5、美众议院副议长将于11月初加入a16zCrypto担任政府事务主管1.6、香港数字资产托管机构FirstDigitalTrust首席执行官：香港仍是安全
IDEA 2022 创建 Spring Boot 项目详解 - 2
如何用IDEA2022创建并初始化一个SpringBoot项目？目录如何用IDEA2022创建并初始化一个SpringBoot项目？0. 环境说明1. 创建SpringBoot项目 2.编写初始化代码0. 环境说明IDEA2022.3.1JDK1.8SpringBoot1. 创建SpringBoot项目打开IDEA，选择NewProject创建项目。填写项目名称、项目构建方式、jdk版本，按需要修改项目文件路径等信息。选择springboot版本以及需要的包，此处只选择了springweb。此处需特别注意，若你使用的是jdk1

CVPR2022 多目标跟踪（MOT）汇总

一、《DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion》

1、摘要

2、方法

二、《SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos》

1、摘要

2、方法

三、《MeMOT: Multi-Object Tracking with Memory》

1、摘要

2、方法

四、《Learning of Global Objective for Network Flow in Multi-Object Tracking》

1、摘要

2、方法

五、《Global Tracking Transformers》

1、摘要

2、方法

六、《Unified Transformer Tracker for Object Tracking》

1、摘要

2、方法

有关CVPR2022 多目标跟踪（MOT）汇总的更多相关文章

随机推荐