Autoencoders_草庐IT

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

自监督学习之掩码自动编码器(MaskedAutoencoders,MAE)——音频识别方面1.参考文献《MaskedAutoencodersthatListen》2.背景Transformers和self-supervisedlearning(自监督学习)占据了计算机视觉(ComputerVision,CV)和自然语言处理(naturallanguageprocessing,NLP)的主导地位。使用BERT进行屏蔽自动编码，通过对大规模语言语料库的自监督预训练，为各种NLP任务提供了一种新的最新技术。类似地，在CV社区中，VisionTransformers(ViT)变得越来越流行，在自监督的

DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks

摘要在本文中，我们研究了掩码自动编码器（MAE）预训练的视频基于匹配的下游任务，包括视觉目标跟踪（VOT）和视频对象分割（VOS）。MAE的一个简单扩展是在视频中随机掩码帧块并重建帧像素。然而，我们发现这种简单的基线严重依赖于空间线索，而忽略了帧重建的时间关系，从而导致VOT和VOS的时间匹配表示次优。为了缓解这一问题，我们提出了DropMAE，它在帧重构中自适应地执行空间注意退出，以促进视频中的时间对应学习。此外，我们还发现，预训练视频中的运动多样性比场景多样性对于提高VOT和VOS的性能更重要。引言在视频对象跟踪（VOT）中，最近的两项工作，SimTrack和OSTrack，探索使用M