草庐IT

RoboFlamingo

全部标签

大模型机器人的爆发时刻:从RoboFlamingo、OK-Robot到CMU 18万机器人、Digit、FMB

这两天,我在朋友圈说道,本质上来讲,斯坦福mobilealoha就是大模型机器人领域里的缩略版ChatGPT时刻,虽然aloha本身并没有像ChatGPT那么强大(毕竟才三人团队),但会让大模型机器人成为今2024年最大的爆发点,为何这么讲呢?一方面,ChatGPT对于各大公司最大的意义是,让大家看到了在大模型上投入的希望,而mobilealoha则让大家看到了在大模型机器人上投入的希望,更会加大:大家在另一条路线「预训练模型+RL」上的投入与决心​二方面,虽说视频生成也会很火,但还没到能改变许多行业的地步,估计得明后年,至于无人驾驶还得再搞几年而第二大爆发点,我觉得是agent,这个“大”更

机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能

近年来,大模型的研究正在加速推进,它逐渐在各类任务上展现出多模态的理解和时间空间上的推理能力。机器人的各类具身操作任务天然就对语言指令理解、场景感知和时空规划等能力有着很高的要求,这自然引申出一个问题:能不能充分利用大模型能力,将其迁移到机器人领域,直接规划底层动作序列呢?对此,ByteDanceResearch基于开源的多模态语言视觉大模型OpenFlamingo开发了开源、易用的RoboFlamingo机器人操作模型,只用单机就可以训练。使用简单、少量的微调就可以把VLM变成RoboticsVLM,从而适用于语言交互的机器人操作任务。OpenFlamingo在机器人操作数据集CALVIN上