草庐IT

mPLUG-Owl2

距离ChatGPT发布已有1年有余,国内外各个公司和研究机构相继发布了各种语言模型,而多模态领域更进一步,在GPT-4V发布之前便涌现了诸多优秀的多模态大语言模型。如今GPT-4V也已经发布,同期阿里多模态mPLUG也发布了他们最新的基于模态协同思想的新工作mPLUG-Owl2。阿里mPLUG-Owl新升级,mPLUG-Owl2的论文、代码、demo均已开源。模态自适应特征空间实现模态协同OpenAIGPT-4V和GoogleGemini都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM成为了现在业界最热的研究方向。MLLM在多种视觉-语言开放任务中取得了出色的指

基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这限制了模型在各种单模态和跨模态下游任务的性能。基于此,达摩院的研究者提出了mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2在30+多/单模态任务,取得同等数据量和模型规模SOTA或者Comparable效果,在VideoQA和 VideoCaption上超越Flamingo、VideoCoca、GITv2等超⼤模型取得绝对SOTA。此外,mPLUG-Owl是阿⾥巴巴达摩院mP

达摩院开源多模态对话大模型mPLUG-Owl

miniGPT-4的热度至今未减,距离LLaVA的推出也不到半个月,而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型,它的名字叫mPLUG-Owl。论文链接:https://arxiv.org/abs/2304.14178项目链接:https://github.com/X-PLUG/mPLUG-Owl在线demo:https://modelscope.cn/studios/damo/mPLUG-Owl/summarymPLUG-Owl展现出强大的图文理解能力:以下是本文作者的试用结果:本文贡献如下:提出一种新的模块化的训练多模态大模型