近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?对此,ByteDanceResearch基于开源的多模态语言视觉大模型OpenFlamingo开发了开源、易用的RoboFlamingo机器人操作模型,只用单机就可以训练。使用简单、少量的微调就可以把VLM变成RoboticsVLM,从而适用于语言交互的机器人操作任务。OpenFlamingo在机器人操作数据集CALVIN上