本文知乎链接: https://zhuanlan.zhihu.com/p/573405333
视频理解是计算机视觉领域中的重要任务,近年来得到了飞速的发展,其中高质量的数据集对视频理解的研究至关重要。本文我们总结了视频理解中常见的数据集,涵盖行为识别、行为分割、时序定位,视听理解等多个任务,并且附上了相应的链接,便于读者直接进入相应的网站查询每个数据集的详细信息。此外,有些数据集可以应用于多种任务,具有一定的交叉性。
本文涉及的数据集及其任务匹配如下:
| 主要任务 | 常用数据集 |
|---|---|
| 行为识别/分类 | HMDB51, UCF101, ActivityNet1.3, Kinetics400, Kinetics-Sounds, VGGSound, EPIC-KITCHENS-100, THUMOS‘14等 |
| 时序定位 | ActivityNet1.3, THUMOS’14, Charades, AVE, LLP, EPIC-KITCHENS-100等 |
| 视听理解 | AVE, LLP, AVSBench, MUSIC-AVQA, Kinetics-Sounds, EPIC-KITCHENS-100, VGGSound等 |
| 行为分割 | GTEA, Breakfast, 50Salads等 |
| 第一视角 | EPIC-KITCHENS-100, EGTEA Gaze++, Ego4D等 |
数据集基本信息如下:
| 序号 | 数据集名称 | 基本任务 | 类别数量 | 总规模 | 平均时长(秒) | 总时长(时) |
|---|---|---|---|---|---|---|
| 1 | HMDB51[1] | 行为识别 | 51 | 6,714 | 3-10 | —— |
| 2 | UCF101[2] | 行为识别 | 101 | 13,320 | 7.21 | 26.67 |
| 3 | ActivityNet1.3[3] | 行为识别等 | 200 | 20,000 | 180 | 700 |
| 4 | Charades[4] | 行为识别 | 157 | 9,848 | —— | —— |
| 5 | Kinetics400[5] | 行为识别 | 400 | 236,532 | 10 | 657 |
| 6 | Kinetics-Sounds[6] | 行为识别 | 31 | 18,716 | 10 | 51 |
| 7 | EPIC-KITCHENS-100[7] | 行为识别 | v.97, n.300 | 89,977 | 3.1 | 100 |
| 8 | THUMOS’14[8] | 时序定位 | 20 | 413 | 68.86 | 7.56 |
| 9 | AVE[9] | 视音定位 | 28 | 4,143 | 10 | 11 |
| 10 | LLP[10] | 视音定位 | 25 | 11,849 | 10 | 33 |
| 11 | AVSBench[11] | 视音分割 | 23 | 4,932 | 5 | 6.85 |
| 12 | VGGsound[12] | 行为识别 | 309 | 185,229 | 10 | 514 |
| 13 | MUSIC-AVQA[13] | 视音问答 | 22 | 9,288 | 60 | 150 |
| 14 | Breakfast[14] | 行为分割 | 1712 | 1989 | 139.37 | 77 |
| 15 | 50Salads[15] | 行为分割 | 17 | 50 | 384 | 5.33 |
| 16 | GTEA[16] | 行为分割 | 7 | 28 | 74.34 | 0.58 |
| 17 | EGTEA Gaze++[17] | 时序定位等 | 106 | 86 | 1214 | 29 |
| 18 | Ego4D[18] | 时序定位等 | —— | —— | —— | 3670 |
注:本文列举的是视频理解中常见的数据集,本文列举的是视频理解中常见的数据集,对于大部分高校等科研单位的研究人员来说,是比较容易使用起来的数据集。
随着算力等硬件设备的升级,以数据为驱动的(超)大规模数据集逐渐涌现,这些基于(超)大规模数据集的模型能够较轻易的突破之前中小数据集性能的瓶颈,具有很大的前景。但是,由于笔者身在高校,算力等硬件设施无法和公司的算力相提并论,所以基于一些经典数据集的探索对高校等科研单位的研究人员具有很大的意义。虽然视频理解领域的数据集非常多,并且不断的有新数据集被提出,但是一些基准数据集还是依旧被大家所认可,本文是笔者依据自己探索的方向(行为识别/分类/分割、时序定位、视听理解等)进行的一些归纳,并附上了这些数据集的作者及团队,他们往往在该领域里深耕多年,值得关注。由于时间关系,本文如有不全或笔误之处,请不吝指出,同时后续也将持续更新。
[1] H. Kuehne, H. Jhuang, E. Garrote, T. Poggio, and T. Serre, “Hmdb: a large video database for human motion recognition,” in 2011 International conference on computer vision. IEEE, 2011, pp. 2556–2563.
[2] K. Soomro, A. R. Zamir, and M. Shah, “Ucf101: A dataset of 101 human actions classes from videos in the wild,” arXiv preprint arXiv:1212.0402, 2012.
[3] F. Caba Heilbron, V. Escorcia, B. Ghanem, and J. Carlos Niebles, “Activitynet: A large-scale video benchmark for human activity understanding,” in Proceedings of the ieee conference on computer vision and pattern recognition, 2015, pp. 961–970.
[4] G. A. Sigurdsson, G. Varol, X. Wang, A. Farhadi, I. Laptev, and A. Gupta, “Hollywood in homes: Crowdsourcing data collection for activity understanding,” in European Conference on Computer Vision. Springer, 2016, pp. 510–526.
[5] W. Kay, J. Carreira, K. Simonyan, B. Zhang, C. Hillier, S. Vijayanarasimhan, F. Viola, T. Green, T. Back, P. Natsev et al., “The kinetics human action video dataset,” arXiv preprint arXiv:1705.06950, 2017.
[6] R. Arandjelovic and A. Zisserman, “Look, listen and learn,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 609–617.
[7] D. Damen, H. Doughty, G. M. Farinella, , A. Furnari, J. Ma, E. Kazakos, D. Moltisanti, J. Munro, T. Perrett, W. Price, and M. Wray, “Rescaling egocentric vision: Collection, pipeline and challenges for epic-kitchens-100,” International Journal of Computer Vision, vol. 130, p. 33–55, 2022.
[8] H. Idrees, A. R. Zamir, Y. Jiang, A. Gorban, I. Laptev, R. Sukthankar, and M. Shah, “The thumos challenge on action recognition for videos “in the wild”,” Computer Vision and Image Understanding, vol. 155, pp. 1–23, 2017.
[9] Y. Tian, J. Shi, B. Li, Z. Duan, and C. Xu, “Audio-visual event localization in unconstrained videos,” in Proceedings of the European Conference on Computer Vision, 2018, pp. 247–263.
[10] Y. Tian, D. Li, and C. Xu, “Unified multisensory perception: Weakly-supervised audio-visual video parsing,” in European Conference on Computer Vision. Springer, 2020, pp. 436–454.
[11] J. Zhou, J. Wang, J. Zhang, W. Sun, J. Zhang, S. Birchfield, D. Guo, L. Kong, M. Wang, and Y. Zhong, “Audio-visual segmentation,” in European Conference on Computer Vision, 2022.
[12] H. Chen, W. Xie, A. Vedaldi, and A. Zisserman, “Vggsound: A large-scale audio-visual dataset,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2020, pp.721–725.
[13] G. Li, Y. Wei, Y. Tian, C. Xu, J.-R. Wen, and D. Hu, “Learning to answer questions in dynamic audio-visual scenarios,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 19108-19118.
[14] H. Kuehne, A. Arslan, and T. Serre, “The language of actions: Recovering the syntax and semantics of goal-directed human activities,” in Proceedings of the IEEE conference on computer vision and pattern recognition, 2014, pp.780–787.
[15] S. Stein and S. J. McKenna, “Combining embedded accelerometers with computer vision for recognizing food preparation activities,” in Proceedings of the 2013 ACM international joint conference on Pervasive and ubiquitous computing, 2013, pp. 729–738.
[16] A. Fathi, X. Ren, and J. M. Rehg, “Learning to recognize objects in egocentric activities,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2011, pp. 3281–3288.
[17] Y. Li, M. Liu, and J. M. Rehg, “In the eye of beholder: Joint learning of gaze and actions in first person video,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 619–635.
[18] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18 995–19 012.
in first person video,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 619–635.
[18] K. Grauman, A. Westbury, E. Byrne, Z. Chavis, A. Furnari, R. Girdhar, J. Hamburger, H. Jiang, M. Liu, X. Liu et al., “Ego4d: Around the world in 3,000 hours of egocentric video,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 18 995–19 012.
我主要使用Ruby来执行此操作,但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式,例如使用这个yaml文件,它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
有时我需要处理键/值数据。我不喜欢使用数组,因为它们在大小上没有限制(很容易不小心添加超过2个项目,而且您最终需要稍后验证大小)。此外,0和1的索引变成了魔数(MagicNumber),并且在传达含义方面做得很差(“当我说0时,我的意思是head...”)。散列也不合适,因为可能会不小心添加额外的条目。我写了下面的类来解决这个问题:classPairattr_accessor:head,:taildefinitialize(h,t)@head,@tail=h,tendend它工作得很好并且解决了问题,但我很想知道:Ruby标准库是否已经带有这样一个类? 最佳
我正在尝试使用Curbgem执行以下POST以解析云curl-XPOST\-H"X-Parse-Application-Id:PARSE_APP_ID"\-H"X-Parse-REST-API-Key:PARSE_API_KEY"\-H"Content-Type:image/jpeg"\--data-binary'@myPicture.jpg'\https://api.parse.com/1/files/pic.jpg用这个:curl=Curl::Easy.new("https://api.parse.com/1/files/lion.jpg")curl.multipart_form_
无论您是想搭建桌面端、WEB端或者移动端APP应用,HOOPSPlatform组件都可以为您提供弹性的3D集成架构,同时,由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台(桌面/WEB/APP,而且某些客户端是“瘦”客户端)快速、方便地将数据接入到3D应用系统的解决方案,并且当访问数据时,在各个平台上的性能和用户体验保持一致,HOOPSPlatform将帮助您完成。利用HOOPSPlatform,您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品,HOOPSSDK包含的技术有:快速且准确的CAD
本教程将在Unity3D中混合Optitrack与数据手套的数据流,在人体运动的基础上,添加双手手指部分的运动。双手手背的角度仍由Optitrack提供,数据手套提供双手手指的角度。 01 客户端软件分别安装MotiveBody与MotionVenus并校准人体与数据手套。MotiveBodyMotionVenus数据手套使用、校准流程参照:https://gitee.com/foheart_1/foheart-h1-data-summary.git02 数据转发打开MotiveBody软件的Streaming,开始向Unity3D广播数据;MotionVenus中设置->选项选择Unit
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目,Java开发。基于数据库增量日志解析,提供增量数据订阅&消费。Git地址:https://github.co
我正在尝试在Rails上安装ruby,到目前为止一切都已安装,但是当我尝试使用rakedb:create创建数据库时,我收到一个奇怪的错误:dyld:lazysymbolbindingfailed:Symbolnotfound:_mysql_get_client_infoReferencedfrom:/Library/Ruby/Gems/1.8/gems/mysql2-0.3.11/lib/mysql2/mysql2.bundleExpectedin:flatnamespacedyld:Symbolnotfound:_mysql_get_client_infoReferencedf
文章目录1.开发板选择*用到的资源2.串口通信(个人理解)3.代码分析(注释比较详细)1.主函数2.串口1配置3.串口2配置以及中断函数4.注意问题5.源码链接1.开发板选择我用的是STM32F103RCT6的板子,不过代码大概在F103系列的板子上都可以运行,我试过在野火103的霸道板上也可以,主要看一下串口对应的引脚一不一样就行了,不一样的就更改一下。*用到的资源keil5软件这里用到了两个串口资源,采集数据一个,串口通信一个,板子对应引脚如下:串口1,TX:PA9,RX:PA10串口2,TX:PA2,RX:PA32.串口通信(个人理解)我就从串口采集传感器数据这个过程说一下我自己的理解,
SPI接收数据左移一位问题目录SPI接收数据左移一位问题一、问题描述二、问题分析三、探究原理四、经验总结最近在工作在学习调试SPI的过程中遇到一个问题——接收数据整体向左移了一位(1bit)。SPI数据收发是数据交换,因此接收数据时从第二个字节开始才是有效数据,也就是数据整体向右移一个字节(1byte)。请教前辈之后也没有得到解决,通过在网上查阅前人经验终于解决问题,所以写一个避坑经验总结。实际背景:MCU与一款芯片使用spi通信,MCU作为主机,芯片作为从机。这款芯片采用的是它规定的六线SPI,多了两根线:RDY和INT,这样从机就可以主动请求主机给主机发送数据了。一、问题描述根据从机芯片手
最近在学习CAN,记录一下,也供大家参考交流。推荐几个我觉得很好的CAN学习,本文也是在看了他们的好文之后做的笔记首先是瑞萨的CAN入门,真的通透;秀!靠这篇我竟然2天理解了CAN协议!实战STM32F4CAN!原文链接:https://blog.csdn.net/XiaoXiaoPengBo/article/details/116206252CAN详解(小白教程)原文链接:https://blog.csdn.net/xwwwj/article/details/105372234一篇易懂的CAN通讯协议指南1一篇易懂的CAN通讯协议指南1-知乎(zhihu.com)视频推荐CAN总线个人知识总