草庐IT

威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4

视觉指令微调火了。这篇论文名为VisualInstructionTuning,由威斯康星大学麦迪逊分校,微软研究院和哥伦比亚大学共同出品。作者包括HaotianLiu,ChunyuanLi,QingyangWu和YongJaeLee。同时,研究人员也在GitHub上开源了他们的代码、模型和数据集。论文也发布在了Arxiv上。讲解那么LLaVA的功能究竟是什么呢?如果一头扎进论文,不熟悉的朋友可能会有些陌生。我们先看看LLaVA自己怎么说。以上回答生成自LLaVA的Chatbot,我输入的问题是,LLaVA的功能是什么,用户该如何利用它?回答如下:LLaVA是一个大语言和视觉助手,在UWMadi