草庐IT

【自然语言处理】【多模态】ALBEF:基于动量蒸馏的视觉语言表示学习

ALBEF:基于动量蒸馏的视觉语言表示学习《AlignbeforeFuse:VisionandLanguageRepresentationLearningwithMomentumDistillation》论文地址:https://arxiv.org/pdf/2107.07651.pdf相关博客:【自然语言处理】【多模态】多模态综述:视觉语言预训练模型【自然语言处理】【多模态】CLIP:从自然语言监督中学习可迁移视觉模型【自然语言处理】【多模态】ViT-BERT:在非图像文本对数据上预训练统一基础模型【自然语言处理】【多模态】BLIP:面向统一视觉语言理解和生成的自举语言图像预训练【自然语言处理

李沐多模态串讲视频总结 ALBEF VLMo BLIP CoCa BEITv3 模型简要介绍

开场多模态串讲的上篇是比较传统的多模态任务多模态最后的模态交互很重要传统的缺点是都用了预训练的目标检测器,训练和部署都很困难。ViLT把预训练的目标检测器换成了一层的PatchEmbedding。因此容易比不过c类的方法ViLT训练很慢认为未来是c类的模型结构Loss:b类(CLIP)仅用对比学习的loss(ImageTextContrastive),比较简单。c类由于有目标检测,因此提了WordPatchAlignmentViLT中发现WPALoss非常慢MLM的LossImageTextMatching效果也很好认为目标函数应该是ITC+ITM+MLM的合体回顾CLIP双塔模型让已有的(图

李沐多模态串讲视频总结 ALBEF VLMo BLIP CoCa BEITv3 模型简要介绍

开场多模态串讲的上篇是比较传统的多模态任务多模态最后的模态交互很重要传统的缺点是都用了预训练的目标检测器,训练和部署都很困难。ViLT把预训练的目标检测器换成了一层的PatchEmbedding。因此容易比不过c类的方法ViLT训练很慢认为未来是c类的模型结构Loss:b类(CLIP)仅用对比学习的loss(ImageTextContrastive),比较简单。c类由于有目标检测,因此提了WordPatchAlignmentViLT中发现WPALoss非常慢MLM的LossImageTextMatching效果也很好认为目标函数应该是ITC+ITM+MLM的合体回顾CLIP双塔模型让已有的(图