草庐IT

分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下

机器之心 2024-01-11 原文

本月初,Meta 发布「分割一切」AI 模型(Segment Anything Model,简称 SAM),可以为任何图像或视频中的任何物体生成 mask,甚至包括没有见过的物体和图像。有人将这一研究比喻为计算机视觉领域的 GPT-3 时刻之一。

Meta 表示,「SAM 已经学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』即开即用,无需额外的训练。」

该模型一经发布,迅速引起计算机视觉领域的轰动,更是有人发出「CV 不存在了」这样的感慨。

然而目前 SAM 的应用主要集中在图像领域,在视频领域的应用仍然未被深入探索,尤其是对视频目标的跟踪 / 分割,仍是巨大挑战。同时,现有的跟踪模型的局限性也很明显,如,场景切换在现实视频中很常见,而现有的跟踪模型只能在单一场景下实现目标的精准定位;现有的模型要求准确的模版初始化,需要人为提供目标边界框或精准掩码,因而可用性被极大限制。

近日,南方科技大学郑锋团队提出了「跟踪一切」(Track Anything  Model ,TAM)的交互工具,其在视频中实现高性能的交互式跟踪和分割。Track Anything 是基于 SAM 的二次创作模型,适用于视频领域任意目标的跟踪任务,可以通过简单的鼠标点击实现对任意视频任意目标的像素级跟踪,实现了目标跟踪的交互性、灵活性、可用性。

  • 论文地址:https://arxiv.org/pdf/2304.11968.pdf
  • 项目地址:https://github.com/gaomingqi/Track-Anything
  • Demo 地址:https://huggingface.co/spaces/watchtowerss/Track-Anything

Track Anything:交互式跟踪任意视频任意目标

Track Anything 效果到底如何呢?我们先从几个示例来说明。首先是多目标跟踪与分割。《清明上河图》大家早已耳闻,画中人物众多、形态各异,其间还穿插各种动作等等。想要跟踪里面的目标难度还是比较大的。下面视频显示 Track Anything 很好的跟踪了物体。

接下来考察 Track Anything 在快速运动场景下的跟踪能力。众所周知,打篮球需要动作敏捷、健步如飞…… 用 AI 技术跟踪一位篮球运动员并不容易,加之运动员动作幅度大、相互之间出现遮挡等,都加大了跟踪难度,出现错误跟踪、漏跟踪情况。但从下面展示的效果来看,即便是在瞬息万变的篮球比赛,Track Anything 跟踪效果都做的非常好。

接下来,我们在看一个示例。从下面视频中可以看到,一位身姿矫健的男生灵活的跨越众多障碍,即便人的运动速度再快、动作再复杂等,Track Anything 都能很好的处理。

由于 Track Anything 跟踪效果非常好,受到广大网友的好评。就像下面这位网友所说的:「这项研究给人一种强烈的终结者的感觉。SAM 在分割图像方面很在行,但在视频方面却不出色,而TMA仅通过少量人工输入,就能很好的实现对视频中物体的跟踪与分割。」

技术介绍

郑锋团队通过以使用者为中介的 SAM 与 VOS 模型的交互式组合,提出了 Track Anything 工具,它拥有强大的视频目标跟踪能力,并提供用户友好的操作界面,只需要简单的点击操作,就可以任意地跟踪用户感兴趣的一个或多个目标区域,还可以根据用户需求灵活调整目标对象,并自带用户纠错和视频编辑功能。其技术流程如下:

1 基于 SAM,用户通过正负样本点的选取,确定目标对象在视频中某一帧的空间区域。

2 使用用户确定的区域作为模板初始化跟踪模型。跟踪过程中,通过建立每个视频帧与模板区域之间的密集关联,实现将用户选取信息向整个视频的传递过程,从而实现目标跟踪。

3 跟踪过程中,用户可以随时暂停,同样通过正负样本选取的方式,实现对其他目标的追踪,或修正当前目标追踪的结果。

4 基于跟踪结果,用户可以使用目标擦除或视频修复功能,实现在视频中对特定区域的编辑。

总之,通过 Track Anything,使用者可以轻松地完成视频中单个或多个目标的精确标注,视频特定区域提取及编辑,以及长时 / 转场视频中的目标跟踪。

相关功能陆续上线中,欢迎大家试用!

郑锋团队不仅在视频领域研发了Track-Anything,还在图像和语言领域还推出了Caption-Anything系统。它是一个多功能的图像处理工具,结合了Segment Anything、Visual Captioning和ChatGPT在图像和语言领域的能力。项目地址:https://github.com/ttengwang/Caption-Anything/。

有关分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下的更多相关文章

  1. 动漫制作技巧如何制作动漫视频 - 2

    动漫制作技巧是很多新人想了解的问题,今天小编就来解答与大家分享一下动漫制作流程,为了帮助有兴趣的同学理解,大多数人会选择动漫培训机构,那么今天小编就带大家来看看动漫制作要掌握哪些技巧?一、动漫作品首先完成草图设计和原型制作。设计草图要有目的、有对象、有步骤、要形象、要简单、符合实际。设计图要一致性,以保证制作的顺利进行。二、原型制作是根据设计图纸和制作材料,可以是手绘也可以是3d软件创建。在此步骤中,要注意的问题是色彩和平面布局。三、动漫制作制作完成后,加工成型。完成不同的表现形式后,就要对设计稿进行加工处理,使加工的难易度降低,并得到一些基本准确的概念,以便于后续的大样、准确的尺寸制定。四、

  2. python ffmpeg 使用 pyav 转换 一组图像 到 视频 - 2

    2022/8/4更新支持加入水印水印必须包含透明图像,并且水印图像大小要等于原图像的大小pythonconvert_image_to_video.py-f30-mwatermark.pngim_dirout.mkv2022/6/21更新让命令行参数更加易用新的命令行使用方法pythonconvert_image_to_video.py-f30im_dirout.mkvFFMPEG命令行转换一组JPG图像到视频时,是将这组图像视为MJPG流。我需要转换一组PNG图像到视频,FFMPEG就不认了。pyav内置了ffmpeg库,不需要系统带有ffmpeg工具因此我使用ffmpeg的python包装p

  3. TimeSformer:抛弃CNN的Transformer视频理解框架 - 2

    Transformers开始在视频识别领域的“猪突猛进”,各种改进和魔改层出不穷。由此作者将开启VideoTransformer系列的讲解,本篇主要介绍了FBAI团队的TimeSformer,这也是第一篇使用纯Transformer结构在视频识别上的文章。如果觉得有用,就请点赞、收藏、关注!paper:https://arxiv.org/abs/2102.05095code(offical):https://github.com/facebookresearch/TimeSformeraccept:ICML2021author:FacebookAI一、前言Transformers(VIT)在图

  4. ruby - 如何更改此正则表达式以从未指定 v 参数的 Youtube URL 获取 Youtube 视频 ID? - 2

    目前我正在使用这个正则表达式从YoutubeURL中提取视频ID:url.match(/v=([^&]*)/)[1]我怎样才能改变它,以便它也可以从这个没有v参数的YoutubeURL获取视频ID:http://www.youtube.com/user/SHAYTARDS#p/u/9/Xc81AajGUMU感谢阅读。编辑:我正在使用ruby​​1.8.7 最佳答案 对于Ruby1.8.7,这就可以了。url_1='http://www.youtube.com/watch?v=8WVTOUh53QY&feature=feedf'url

  5. ruby - 为什么在 Ruby 中一切都是 Class 的实例? - 2

    这个问题在这里已经有了答案:Rubymetaclassconfusion(4个答案)关闭7年前。我对Ruby对象模型不太了解。首先,Ruby中的一切都是Class的实例吗??这些都产生true:pObject.instance_of?(Class)pClass.instance_of?(Class)pModule.instance_of?(Class)pBasicObject.instance_of?(Class)classHello;endpHello.instance_of?(Class)我不太明白这怎么可能,如果Object是Class的父类(superclass),它怎么可能都

  6. ruby - 如何从 URL 中删除 Google 跟踪参数 (UTM)? - 2

    我有一堆要清理的URL。它们都包含UTM参数,在这种情况下不是必需的,或者是有害的。示例:http://houseofbuttons.tumblr.com/post/22326009438?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+HouseOfButtons+%28House+of+Buttons%29所有可能的参数都以utm_开头。如何使用ruby​​脚本/结构轻松删除它们而不破坏其他潜在的“好”URL参数? 最佳答案 您可以将正则表达式应用于url以清

  7. ruby-on-rails - Rails Asset Pipeline 更好的错误或堆栈跟踪 - 2

    刚刚将应用程序从rails3.0.9升级到3.2.1,当我运行bundleexecrakeassets:precompile时出现错误,这很好,但是回溯没有告诉我在哪里语法问题来self的css或scss文件。我尝试对“0ee5c0e69c92af0”进行greping,但该字符串没有出现在我的项目中。bundleexecrakeassets:precompile:allRAILS_ENV=productionRAILS_GROUPS=assets--trace**Invokeassets:precompile:all(first_time)**Executeassets:precom

  8. ruby - 使用 gmail gem 跟踪一些电子邮件 - 2

    我正在使用gmailgem发送电子邮件,我需要跟踪这些电子邮件。我该怎么做?我正在尝试搜索带有message_id的电子邮件,但它会从我的收件箱中提取所有电子邮件,而我只想要特定电子邮件的回复。这是我的实际代码:*使用message_id保存电子邮件*mail=gmail.deliver(email)Email.create(:message_id=>mail.message_id,:from=>user.email,:to=>annotation.to,:body=>annotation.content,:title=>annotation.title,:annotation=>an

  9. ruby - 如何跟踪 paper_trail 中的自定义事件? - 2

    我正在使用paper_trail进行审计跟踪。除了创建、更新和删除事件外,我还想跟踪一些自定义事件,例如查看(记录)、发送(电子邮件)等。我们如何在审核模型时引入此类自定义事件? 最佳答案 我发现了一个调整,可以在paper_trail管理的Version中添加自定义事件:Version.create(item_type:"Campaign",item_id:campaign.id,event:"Sent")也许这不是正确的解决方案,但它帮助我实现了目标。我想更多地探索paper_trail以找到更好的解决方案。

  10. ruby - 跟踪 Ruby 中的代码? - 2

    关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。关闭7年前。Improvethisquestion有没有一种运行脚本并查看所有步骤的好方法:执行了哪些代码代码在哪个文件中返回什么错误信息这将是了解开源项目如何运作的好方法。Ruby没有这样的解决方案吗?例如。require"httparty"HTTParty.get"http://www.google.se"然后它会运行代码并向我展示它正在执行的所有代码,其中的文件和行、返回的对象、错误消息等。

随机推荐