草庐IT

论文精读:VMamba Visual State Space Model

Author:HongtianYu,LingxiXie,QixiangYe,YaoweiWang,YueLiu,YunfanLiu,YunjieTian,YuzhongZhaoInstitution:中国科学院大学(UCAS),华为,鹏城实验室Publisher:arXivPublishing/ReleaseDate:January18,2024Summary:CNNs和ViTs是视觉特征表示领域常用的两个基座模型,CNNs具有显著的可扩展性,线性复杂度与图像分辨率相关,ViTs的拟合能力更强,通过注意力机制的全局感受野和动态权重可以有更好的表现,但是复杂度是二次的。本文提出了一种新的架构——