干货！视频中的时序定位——面向实时、灵活、精确的解决方案

AITIME论道 2023-08-03 原文

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

得利于数码相机的便利和社交网络的发展，每秒钟都有大量视频都在生成和传播。因此，视频分析和理解成为计算机视觉界最重要的研究课题之一。最近，视频分析的重点逐渐的从片段视频的动作分类转向未修剪视频的时序定位。这是因为在许多现实世界的应用中，通常会呈现长的、未修剪的视频，而不是短的视频剪辑。未修剪的原始视频通常具有单调的背景场景和包含特定动作的前景片段，因此我们需要一个视频模型来执行时间定位任务从原始视频中定位前景运动。比如说，根据不同的场景，我们期望自动定位特定的动作，或者预测与给定句子匹配的一小段剪辑。总体来说，我们需要一个面向实时、灵活、精确的解决方案。

本期AI TIME PhD直播间，我们邀请到阿卜杜拉国王科技大学——许蒙蒙，为我们带来报告分享《视频中的时序定位——面向实时、灵活、精确的解决方案》。

许蒙蒙：

阿卜杜拉国王科技大学（KAUST）图像和视频理解实验室（IVUL）博士生，其导师为Bernard Ghanem教授。许蒙蒙于2017年获得中国浙江大学学士学位，并于2019年在KAUST获得硕士学位。博士期间，他曾在三星、亚马逊等公司实习。目前，许蒙蒙专注于图像和视频的理解。他感兴趣的问题是通过具有新颖模型架构的自监督学习来表示未修剪的长视频。他还对视频时序定位任务感兴趣，例如时序动作定位和视频语言定位。

今天我们主要介绍的问题是视频中的时序定位问题，希望可以得到面向实时、灵活、精确的解决方案。

Temporal Action Localization

Videos on different platforms

随着科技发展，视频数据海量生成。对于视频数据的研究也成为了一个热门的方向。下面是一些视频平台的统计数据。

● Facebook：视频每天有80亿次点击，共有1亿小时的视频。

● YouTube: 每分钟有超过500小时的内容上传(截至2019)。

● Netflix：目前在云端存储有220万分钟的内容

计算机视觉中的一个方向就是让AI理解视频。最近的研究，正在从视频行为的理解转向长视频的理解。长视频一般包含两种内容：一种是感兴趣的前景内容，比如某次报告；一种是单调、甚至乏味的内容，比如两场报告之间的空白休息时间。我们希望可以把更加重要的内容（前景）呈现给用户。

Facebook发现一个有趣的现象：视频的浏览量往往会随着视频的时间长度增加而下降。如果可以把长视频的内容压缩抽象到短时间之中，比如把一段长视频的精华放到开始，就更有利于吸引观众。实现这样的功能需要我们首先了解三个问题：

● 观众想看什么视频？

● 观众想看的是哪一片段？

● 那一片段都有什么内容？

我们自己可以通过观看视频很好的了解都发生了几件什么样的事情，但是这对于机器来说相当困难。

目前主流的方法是通过两步训练实现的，如下图所示：

尽管任务内容上可能有微小的差距，一般解决思路是用视频理解的模型和定位的模型共同发挥作用。对于视频理解模型，我们会对视频的类别进行分类训练，训练好的视频理解模型会将视频抽象为视频特征，而视频特征就可以用于之后定位模型的输入。另一方面，定位模型只需观察这些视频特征，就可以估计并排序这些有可能发生的行为。下面是我们给出的一个研究例子：Example of Localization Model: G-TAD

G-TAD这里只是一个定位模型，所以其输入就是视频特征，输出就是前景动作在哪里。我们也通过借鉴和采用更新的方法使得定位模型效果更好。要注意，这方面的研究集中于如何设计定位模型，毕竟其输入只是视频特征。这类研究的一个优势是它作为轻量级的模型可以很快达到收敛并迭代优化。

Video encoder: Task Discrepancy Problem

在研究理解模型的时候，我们发现有个任务不一致的问题。这是因为视频理解模型的预训练任务通常是去分类某个行为，但是现在需要视频模型对定位问题有着更深的理解。所以，如果直接把视频理解模型用于视频定位，效果就会有比较大的差距。一个直接的解决方法是将视频理解模型和视频定位模型放在一起训练优化，但是这样却很难实现。

●restricted by the large input size of untrimmed videos

● subject to the memory constraint of GPUs.

● joint optimization is challenging for TAL!

我们文章的贡献：

● 提出了任务不一致的问题：视频模型的预训练通常是在识别任务上，但最终任务需要一个定位模型。

● 提出low-fidelity (LoFi)使得协同训练得以实现。

● 当与现成的TAL模型结合使用时，会产生新的SOTA性能

Low-Fidelity Optimization

low-fidelity video encoder optimization

● 通过调整视频理解模型的训练，使其不仅有利于视频识别，也可以促进视频定位。

● 也可以满足一定的硬件约束。

上图中有三个模块，是在之前两步训练法的中间加入了一步，这一步使得我们可以协调两个网络一起进行训练。为了让协同训练能够满足硬件的要求，我们的方法是降低训练视频的保真度，并在不同的训练环境中进行不同的调整。这个想法本质上是在不同维度上减少视频分辨率，来达到端到端训练的效果。这样的设计使得我们的训练梯度可以从定位的网络反传到视频理解的网络，从而使得视频理解的网络可以提供更好的视频特征来促进视频定位。

以下是具体的实验细节，前三步是不同的减小分辨率的设计，第四部步提供了一种周期性的训练方法。

通过这样一个中间环节的训练，我们使得视频理解模型和定位模型一起进行训练。该方法的核心就是降低时间和空间的分辨率，这种调节性的改变可以使我们的模型满足运算的硬件限制，也可以使梯度反传到视频理解网络。

Results and Discussion

我们的方法在一些主流的数据集上进行了验证，这两个数据集都是大规模的视频理解挑战。

我们发现，最优的方法是通过多种不同低保真度的设置，来进行周期的训练。我们方法不仅可以在性能上达到最优，而且还可以应用到非常小的模型。

同时，对于不同的硬件限制可以部署不同的视频模型。

假设我们的硬件设备，可以不断的升级更新。我们的显存可以越来越高，从而使的我们的解决方案效果越来越好。

最后，通过协同训练的方法，视频网络就能够帮助去做视频定位的问题。对于这一大类问题，我们也可以把视频理解网络拿出来，放在其他视频问题上出来。这样也可以使模型得到一个较好效果。

Conclusion

● low-fidelity video encoder optimization:直观且有效

● 视频特征表示的学习和改进能有益于多种视频理解的下游任务

提

醒

论文题目：

Low-Fidelity Video Encoder Optimization for Temporal Action Localization

论文链接：

https://papers.nips.cc/paper/2021/file/522a9ae9a99880d39e5daec35375e999-Paper.pdf

点击“阅读原文”，即可观看本场回放

整理：林则

作者：许蒙蒙

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了700多位海内外讲者，举办了逾350场活动，超280万人次观看。

我知道你

在看

哦

点击 阅读原文 查看回放！

时序 mdash xff0c xff xff0 人工智能大数据编程语言 python 机器学习

有关干货！视频中的时序定位——面向实时、灵活、精确的解决方案的更多相关文章

ruby - 如何从 ruby 中的字符串运行任意对象方法？ - 2
总的来说，我对ruby还比较陌生，我正在为我正在创建的对象编写一些rspec测试用例。许多测试用例都非常基础，我只是想确保正确填充和返回值。我想知道是否有办法使用循环结构来执行此操作。不必为我要测试的每个方法都设置一个assertEquals。例如:describeitem,"TestingtheItem"doit"willhaveanullvaluetostart"doitem=Item.new#HereIcoulddotheitem.name.shouldbe_nil#thenIcoulddoitem.category.shouldbe_nilendend但我想要一些方法来使用
ruby - 其他文件中的 Rake 任务 - 2
我试图在一个项目中使用rake，如果我把所有东西都放到Rakefile中，它会很大并且很难读取/找到东西，所以我试着将每个命名空间放在lib/rake中它自己的文件中，我添加了这个到我的rake文件的顶部:Dir['#{File.dirname(__FILE__)}/lib/rake/*.rake'].map{|f|requiref}它加载文件没问题，但没有任务。我现在只有一个.rake文件作为测试，名为“servers.rake”，它看起来像这样:namespace:serverdotask:testdoputs"test"endend所以当我运行rakeserver:testid时
ruby-on-rails - Ruby net/ldap 模块中的内存泄漏 - 2
作为我的Rails应用程序的一部分，我编写了一个小导入程序，它从我们的LDAP系统中吸取数据并将其塞入一个用户表中。不幸的是，与LDAP相关的代码在遍历我们的32K用户时泄漏了大量内存，我一直无法弄清楚如何解决这个问题。这个问题似乎在某种程度上与LDAP库有关，因为当我删除对LDAP内容的调用时，内存使用情况会很好地稳定下来。此外，不断增加的对象是Net::BER::BerIdentifiedString和Net::BER::BerIdentifiedArray，它们都是LDAP库的一部分。当我运行导入时，内存使用量最终达到超过1GB的峰值。如果问题存在，我需要找到一些方法来更正我的代
ruby-on-rails - Rails 3 中的多个路由文件 - 2
Rails2.3可以选择随时使用RouteSet#add_configuration_file添加更多路由。是否可以在Rails3项目中做同样的事情？最佳答案在config/application.rb中:config.paths.config.routes在Rails3.2(也可能是Rails3.1)中，使用:config.paths["config/routes"] 关于ruby-on-rails-Rails3中的多个路由文件，我们在StackOverflow上找到一个类似的问题
ruby-on-rails - Rails - 一个 View 中的多个模型 - 2
我需要从一个View访问多个模型。以前，我的links_controller仅用于提供以不同方式排序的链接资源。现在我想包括一个部分(我假设)显示按分数排序的顶级用户(@users=User.all.sort_by(&:score))我知道我可以将此代码插入每个链接操作并从View访问它，但这似乎不是“ruby方式”，我将需要在不久的将来访问更多模型。这可能会变得很脏，是否有针对这种情况的任何技术？注意事项:我认为我的应用程序正朝着单一格式和动态页面内容的方向发展，本质上是一个典型的网络应用程序。我知道before_filter但考虑到我希望应用程序进入的方向，这似乎很麻烦。最终从任何
ruby-on-rails - Rails 3.2.1 中 ActionMailer 中的未定义方法 'default_content_type=' - 2
我在我的项目中添加了一个系统来重置用户密码并通过电子邮件将密码发送给他，以防他忘记密码。昨天它运行良好(当我实现它时)。当我今天尝试启动服务器时，出现以下错误。=>BootingWEBrick=>Rails3.2.1applicationstartingindevelopmentonhttp://0.0.0.0:3000=>Callwith-dtodetach=>Ctrl-CtoshutdownserverExiting/Users/vinayshenoy/.rvm/gems/ruby-1.9.3-p0/gems/actionmailer-3.2.1/lib/action_mailer
ruby - 在 jRuby 中使用 'fork' 生成进程的替代方案？ - 2
在MRIRuby中我可以这样做:deftransferinternal_server=self.init_serverpid=forkdointernal_server.runend#Maketheserverprocessrunindependently.Process.detach(pid)internal_client=self.init_client#Dootherstuffwithconnectingtointernal_server...internal_client.post('somedata')ensure#KillserverProcess.kill('KILL',
ruby-on-rails - Rails 应用程序中的 Rails : How are you using application_controller. rb 是新手吗？ - 2
刚入门rails，开始慢慢理解。有人可以解释或给我一些关于在application_controller中编码的好处或时间和原因的想法吗？有哪些用例。您如何为Rails应用程序使用应用程序Controller？我不想在那里放太多代码，因为据我了解，每个请求都会调用此Controller。这是真的？最佳答案 ApplicationController实际上是您应用程序中的每个其他Controller都将从中继承的类(尽管这不是强制性的)。我同意不要用太多代码弄乱它并保持干净整洁的态度，尽管在某些情况下ApplicationContr
ruby-on-rails - form_for 中不在模型中的自定义字段 - 2
我想向我的Controller传递一个参数，它是一个简单的复选框，但我不知道如何在模型的form_for中引入它，这是我的观点:{:id=>'go_finance'}do|f|%>Transferirde:para:Entrada:"input",:placeholder=>"Quantofoiganho?"%>Saída:"output",:placeholder=>"Quantofoigasto?"%>Nota:我想做一个额外的复选框，但我该怎么做，模型中没有一个对象，而是一个要检查的对象，以便在Controller中创建一个ifelse，如果没有检查，请帮助我，非常感谢,谢谢
ruby - rspec 需要 .rspec 文件中的 spec_helper - 2
我注意到像bundler这样的项目在每个specfile中执行requirespec_helper我还注意到rspec使用选项--require，它允许您在引导rspec时要求一个文件。您还可以将其添加到.rspec文件中，因此只要您运行不带参数的rspec就会添加它。使用上述方法有什么缺点可以解释为什么像bundler这样的项目选择在每个规范文件中都需要spec_helper吗？最佳答案我不在Bundler上工作，所以我不能直接谈论他们的做法。并非所有项目都checkin.rspec文件。原因是这个文件，通常按照当前的惯例，只

干货！视频中的时序定位——面向实时、灵活、精确的解决方案

有关干货！视频中的时序定位——面向实时、灵活、精确的解决方案的更多相关文章

随机推荐