VMamba_草庐IT

Author:HongtianYu,LingxiXie,QixiangYe,YaoweiWang,YueLiu,YunfanLiu,YunjieTian,YuzhongZhaoInstitution:中国科学院大学（UCAS）,华为,鹏城实验室Publisher:arXivPublishing/ReleaseDate:January18,2024Summary:CNNs和ViTs是视觉特征表示领域常用的两个基座模型，CNNs具有显著的可扩展性，线性复杂度与图像分辨率相关，ViTs的拟合能力更强，通过注意力机制的全局感受野和动态权重可以有更好的表现，但是复杂度是二次的。本文提出了一种新的架构——