论文标题:VoxPoser:Composable3DValueMapsforRoboticManipulationwithLanguageModels论文作者:WenlongHuang,ChenWang,RuohanZhang,YunzhuLi,JiajunWu,LiFei-Fei作者单位:StanfordUniversity,UniversityofIllinoisUrbana-Champaign论文原文:https://arxiv.org/abs/2307.05973论文出处:CoRL2023(Oral)论文被引:64(01/05/2024)项目主页:https://voxposer.gi
前言23年7月,我在朋友圈评估Google的RT2说道:“大模型正在革新一切领域啊,超帅,通过大模型不仅能理解“人话”,还能对“人话”进行推理,并转变为机器人能理解的指令,从而分阶段完成任务。回头仔细看下论文”当时便对大模型机器人印象深刻,一直想仔细研究下来着,但因为后来一直和团队忙于论文审稿GPT、企业知识库问答等项目,所以一直没抽出时间去深入研究没成想,前几天,斯坦福的炒菜机器人火爆全网,再次让包括我在内的所有人目瞪口呆,再次在朋友圈评论道:多模态+大模型+AIagent可以全方位赋能机器人一年前我决心彻底写清楚ChatGPT原理一年前,因为对ChatGPT背后技术原理巨大的「好奇心」,加
语言是一种压缩媒介,人们通过它来提炼和传达他们对世界的知识和经验。大型语言模型(LLMs)已成为一种有前景的方法,通过将世界投影到语言空间中来捕捉这种抽象。虽然这些模型被认为在文本形式中内化了可概括的知识,但如何利用这种可概括的知识使具身代理能够在现实世界中进行物理行动仍然是一个问题。该工作研究了将抽象语言指令(例如“摆放桌子”)与机器人行动相结合的问题。之前的研究利用词汇分析来解析指令,而最近的研究利用语言模型将指令分解为文本序列的步骤。然而,为了能够与环境进行物理交互,现有方法通常依赖于手动设计或预训练的运动基元(即技能),这些基元可以由LLM或规划器调用。由于缺乏大规模的机器人数据,这种
这是最近斯坦福的李飞飞团队的一篇论文:VoxPoser:Composable3DValueMapsforRoboticManipulationwithLanguageModels主要是通过大语言模型LLM和视觉语言模型VLM结合,来对机器人做各种日常操作,我们可以先来看下实际效果:大语言模型加视觉模型的通用机器人可以看到在不同的实际场景中都可以很好的进行日常操作,而且具备对机器人不需要进行训练的优势。对于这篇论文的解读,尽量通俗的按照自己的理解来表达,希望对大家有帮助,当然水平有限,有误之处,欢迎指正,一起进步。1、VoxPoser开发的初衷在以往的机器人操作当中,我们都是需要先预定义轨迹,这