SamAltman在各种场合都提到,大语言模型的多模态能力,是未来AI技术能够造福人类的最亟待突破的领域。那么现在在多模态大模型的视觉功能能否达到与语言功能匹配的水平?当前多模态模型取得的进步很大程度上归功于大语言模型(LLM)的推理能力。但在视觉方面,模型往往只基于实例级别的对比语言-图像预训练(CLIP)。最近,来自纽约大学和UC伯克利的团队研究表明,多模态大语言模型(MLLM)在视觉处理方面仍存在普遍性的缺陷。其中,团队成员堪称「豪华」,除了领队谢赛宁外,共同参与还有马毅和LeCun两位大佬。论文地址:https://arxiv.org/abs/2401.06209开源项目:https:
模型灾难性遗忘,成为当前一个关键热门话题,甚至连GPT-4也无法避免。近日,来自UC伯克利、NYU等机构研究人员发现,微调后的多模态大模型,会产生灾难性遗忘。论文地址:https://arxiv.org/abs/2309.10313论文中,研究团队引入了首个研究MLLM灾难性遗忘的评估框架——EMT(EvaluatingMulTimodality)。(老二次元的基因动了)在多个基准上评估4个模型后,发现多数模型无法保持与其基础视觉编码器(CLIP)相似的分类性能。同时,在一个数据集上对LLaVA进行微调会导致在其他数据集上出现灾难性遗忘。MLLM的EMT评估流程如下:通过(1)提示每个MLLM
基于Transformer的视觉基础模型在各种下游任务,如分割和检测中都展现出了非常强大的性能,并且DINO等模型经过自监督训练后已经涌现出了语义的分割属性。不过奇怪的是,类似的涌现能力并没有出现在有监督分类训练后的视觉Transformer模型中。最近,马毅教授团队探索了基于Transformer架构的模型中涌现分割能力是否仅仅是复杂的自监督学习机制的结果,或者是否可以通过模型架构的适当设计在更通用的条件下实现相同的涌现。代码链接:https://github.com/Ma-Lab-Berkeley/CRATE论文链接:https://arxiv.org/abs/2308.16271通过大量
过去几年,无监督和自监督学习(SSL)取得了巨大进步,通过SSL学习得到的表征在分类性能上甚至赶上了有监督学习,在某些情况下甚至还能超过有监督学习,这一趋势也为视觉任务的大规模数据驱动无监督学习提供了可能。虽然自监督学习的实验性能惊人,但大多数自监督学习方法都是相当「低效」的,通常需要数百个训练epoch才能完全收敛。 最近,马毅教授、图灵奖得主YannLeCun团队发布了一种新的自监督学习方法Extreme-Multi-PatchSelf-Supervised-Learning(EMP-SSL),证明了高效自监督学习的关键是增加每个图像实例中的图像块数量。论文链接:https://arxi
过去十多年,AI的飞速发展主要是工程实践上的进步,AI理论并没有起到指导算法开发的作用,经验设计的神经网络依然是一个黑盒。而随着ChatGPT的爆火,AI的能力也被不断夸大、炒作,甚至到了威胁、绑架社会的地步,让Transformer架构设计变透明已刻不容缓!最近,马毅教授团队发布了最新研究成果,设计了一个完全可用数学解释的白盒Transformer模型CRATE,并在真实世界数据集ImageNet-1K上取得了接近ViT的性能。代码链接:https://github.com/Ma-Lab-Berkeley/CRATE论文链接:https://arxiv.org/abs/2306.01129在