RoboFlamingo_草庐IT

大模型机器人的爆发时刻：从RoboFlamingo、OK-Robot到CMU 18万机器人、Digit、FMB

这两天，我在朋友圈说道，本质上来讲，斯坦福mobilealoha就是大模型机器人领域里的缩略版ChatGPT时刻，虽然aloha本身并没有像ChatGPT那么强大(毕竟才三人团队)，但会让大模型机器人成为今2024年最大的爆发点，为何这么讲呢？一方面，ChatGPT对于各大公司最大的意义是，让大家看到了在大模型上投入的希望，而mobilealoha则让大家看到了在大模型机器人上投入的希望，更会加大：大家在另一条路线「预训练模型+RL」上的投入与决心二方面，虽说视频生成也会很火，但还没到能改变许多行业的地步，估计得明后年，至于无人驾驶还得再搞几年而第二大爆发点，我觉得是agent，这个“大”更

机器人领域首个开源视觉-语言操作大模型，RoboFlamingo框架激发开源VLMs更大潜能

近年来，大模型的研究正在加速推进，它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求，这自然引申出一个问题：能不能充分利用大模型能力，将其迁移到机器人领域，直接规划底层动作序列呢？对此，ByteDanceResearch基于开源的多模态语言视觉大模型OpenFlamingo开发了开源、易用的RoboFlamingo机器人操作模型，只用单机就可以训练。使用简单、少量的微调就可以把VLM变成RoboticsVLM，从而适用于语言交互的机器人操作任务。OpenFlamingo在机器人操作数据集CALVIN上