用ChatGPT和强化学习玩转《我的世界》，Plan4MC攻克24个复杂任务

机器之心 2023-09-23 原文

在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》（Minecraft）作为一款受欢迎的开放世界游戏，具有无限生成的复杂世界和大量开放的任务，成为近几年开放式学习研究的重要测试环境。

学习 Minecraft 中的复杂任务对当前的强化学习算法是巨大的挑战。一方面，智能体在无限大的世界中通过局部的观测寻找资源，面临探索的困难。另一方面，复杂的任务通常需要很长的执行时间，要求完成许多隐含的子任务。例如，制作一把石镐涉及砍树、制作木镐、挖原石等十余个子任务，需要智能体执行数千步才能完成。智能体只有在任务完成时能够获得奖励，难以通过稀疏奖励学会任务。

图：Minecraft 中制作石镐的过程。

目前围绕 MineRL 挖钻石竞赛的研究普遍使用专家演示的数据集，而 VPT 等研究使用大量带标签的数据学习策略。在缺少额外数据集的情况下，用强化学习训练 Minecraft 的任务是非常低效的。MineAgent 使用 PPO 算法仅能完成若干个简单任务；基于模型的 SOTA 方法 Dreamer-v3 在简化环境模拟器的情况下，也需要采样 1000 万步学会获得原石。

北京大学和北京智源人工智能研究院的团队提出了在无专家数据的情况下高效解决 Minecraft 多任务的方法 Plan4MC。作者结合强化学习和规划的方法，将解决复杂任务分解为学习基本技能和技能规划两个部分。作者使用内在奖励的强化学习方法训练三类细粒度的基本技能。智能体使用大型语言模型构建技能关系图，通过图上的搜索得到任务规划。实验部分，Plan4MC 目前可以完成 24 个复杂多样任务，成功率相比所有的基线方法有巨大提升。

论文链接：https://arxiv.org/abs/2303.16563
代码链接：https://github.com/PKU-RL/Plan4MC
项目主页：https://sites.google.com/view/plan4mc

1、Minecraft 多任务

Minecraft 中玩家通过探索能够获得数百种物品。任务定义为初始条件和目标物品的组合，例如，“初始化

工作台，获得熟牛肉”。解决这个任务包含 “获得牛肉”、“用工作台和原石制作熔炉” 等步骤，这些细分的步骤称为技能。人类在世界中掌握和组合此类技能来完成各种任务，而不是独立地学习每个任务。Plan4MC 的目标是学习策略掌握大量的技能，再通过规划将技能组合成任务。

作者在 MineDojo 模拟器上构建了 24 个测试任务，它们涵盖了多种行为（砍树、挖原石、与动物交互）、多种地形，涉及 37 个基本技能。需要数十步的技能组合和数千步的环境交互来完成各个任务。

图：24 个任务的设置

2、Plan4MC 方法

学习技能

由于强化学习在训练中难以让玩家大范围跑动探索世界，许多技能仍不能被掌握。作者提出将探索和寻找的步骤分离出来，将 “砍树” 技能进一步细化为 “找树” 和 “获得木头”。Minecraft 中的所有技能被分为三类细粒度的基本技能：

寻找：给定目标物品，玩家要在世界中探索，找到和接近该物品。
操作：利用现有的工具在附近完成一些任务，如放置工作台、与动物交互、挖方块。
合成：用低级物品合成高级物品。

针对每一类技能，作者设计了强化学习模型和内在奖励进行高效的学习。寻找类技能使用分层的策略，其中上层策略负责给出目标位置、增大探索范围，下层策略负责到达目标位置。操作类技能使用 PPO 算法结合 MineCLIP 模型的内在奖励训练。合成类技能仅使用一个动作完成。在未修改难度的 MineDojo 模拟器上，学习全部技能仅需与环境交互 6.5M 步。

规划算法

Plan4MC 利用技能之间的依赖关系进行规划，例如获得石镐与获得原石、木棍、放置的工作台等技能间存在如下关系。

作者通过与大语言模型 ChatGPT 进行交互的方式生成出所有技能之间的关系，构建了技能的有向无环图。规划算法是技能图上的深度优先搜索，如下图所示。

相比 Inner Monologue、DEPS 等与大语言模型交互式规划的方法，Plan4MC 能够有效避免大语言模型规划过程中的错误。

3、实验结果

在关于学习技能的研究中，作者引入了不做任务分解的 MineAgent，以及不细分出寻找类技能的消融实验 Plan4MC w/o Find-skill。表 2 表明，Plan4MC 在三组任务上均显著超过基线方法。MineAgent 在挤牛奶、剪羊毛等简单任务上性能接近 Plan4MC，但无法完成探索困难的砍树、挖原石等任务。不做技能细分的方法在所有任务上成功率均低于 Plan4MC。

图 3 显示了在完成任务的过程中，各方法在寻找目标的阶段均有较大的失败概率、导致成功率曲线下降。而不做技能细分的方法在这些阶段的失败概率明显高于 Plan4MC 的概率。

在关于规划的研究中，作者引入了利用ChatGPT做交互式规划的基线方法Interactive LLM，以及两个消融实验：技能执行失败时不再重新规划的Zero-shot方法和使用一半最大交互步数的1/2-steps方法。表2表明Interactive LLM在与动物交互的任务集上表现接近Plan4MC，而在另两个需要更多规划步骤的任务集上表现不佳。Zero-shot的方法在所有任务上均表现较差。使用一半步数的方法相比Plan4MC成功率下降不多，表面Plan4MC能用较少的步数高效完成任务。

4、总结

作者提出了 Plan4MC，使用强化学习和规划解决 Minecraft 中的多任务。为解决探索困难和样本效率的问题，作者使用内在奖励的强化学习训练基本技能，利用大语言模型构建技能图进行任务规划。作者在大量困难 Minecraft 任务上验证了 Plan4MC 相较包括 ChatGPT 等的各种基线方法的优势。

结束语：强化学习技能 + 大语言模型 + 任务规划有可能实现 Daniel Kahneman 所描述的 System1/2 人类决策模型。

攻克 ChatGPT style text-align data-id 人工智能新闻强化学习 AI

有关用ChatGPT和强化学习玩转《我的世界》，Plan4MC攻克24个复杂任务的更多相关文章

亚特兰蒂斯的回声（中文版): chatGPT 的杰作 - 2
英文版英文链接关注公众号在“亚特兰蒂斯的回声”中踏上一段难忘的冒险之旅，深入未知的海洋深处。足智多谋的考古学家AriaSeaborne偶然发现了一件古代神器，揭示了一张通往失落之城亚特兰蒂斯的隐藏地图。在她神秘的导师内森·兰登教授的指导和勇敢的冒险家亚历克斯·默瑟的帮助下，阿丽亚开始了一段危险的旅程，以揭开这座传说中城市的真相。他们的冒险之旅带领他们穿越险恶的大海、神秘的岛屿和充满陷阱和谜语的致命迷宫。随着Aria潜在的魔法能力的觉醒，她被睿智勇敢的QueenNeria的幻象所指引，她让她为即将到来的挑战做好准备。三人组揭开亚特兰蒂斯令人惊叹的隐藏文明，并了解到邪恶的巫师马拉卡勋爵试图利用其古
智能客服 | 浅谈人工智能聊天机器人ChatGPT - 2
2022年底，OpenAI的预训练模型ChatGPT给人工智能领域的爱好者和研究人员留下了深刻的印象和启发，他展现的惊人能力将人工智能的研究和应用热度推向高潮，网上也充斥着和ChatGPT的各种聊天，他可以作诗、写小说、写代码、讨论疫情问题等。下面就是一些他的神回复：人命关天的坑：写歌，留给词作者的机会不多了。。。回答人类怎么样面对人工智能：什么是ChatGPT？借用网上的一段介绍，ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型，一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动
【ChatGPT】ChatGPT 的 N 种用法 - 2
目录ChatGPT简介技术原理应用未来发展ChatGPT的10 种用法ChatGPT简介ChatGPT是一种基于深度学习的大型语言模型，由OpenAI公司开发。技术原理GPT是GenerativePre-trainedTransformer的缩写，意为生成式预训练变压器。它的技术原理是使用了一个基于注意力机制的变压器（Trans
「想体验ChatGPT中文聊天？」那快进来，你用不上算我输 - 2
♥️作者：白日参商🤵‍♂️个人主页：白日参商主页♥️坚持分析平时学习到的项目以及学习到的软件开发知识，和大家一起努力呀！！！🎈🎈加油！加油！加油！加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+！「想体验ChatGPT中文聊天？」那快进来，你用不上算我输项目场景：项目条件一、那就开始吧1、安装ChatGPT-Desktop2、OpenAPI设置二、使用实例恭喜你！！！配置成功了！！！API和URL都是博主免费提供给大家的！！！恭喜你！！！配置成功了！！！API和URL都是博主免费提供给大家的！！！🎈🎈加油！加油！加油！加油🎈欢迎评论💬点赞👍🏻收藏📂加关注+！项目场景：近几个月可以说ChatGPT是火得一
半个月狂飙1000亿，ChatGPT概念股凭什么？ - 2
ChatGPT掀起了AI股历史上最疯狂的一轮市值狂飙。自春节后至今，ChatGPT概念股开始了暴走模式，短短半月时间，海天瑞声、开普云等ChatGPT概念股市值累计增加了近1400亿。如此的爆炸效应，得益于ChatGPT所展现出商业化落地的巨大潜力。要知道，在此之前，无论是十年AI投入超千亿的百度，还是困在硬件化里的AI四小龙，都在重复着AI商业化难落地的故事。ChatGPT的出现，让AI从生产力的赋能者直接成为一种创造生产力的工具。随着订阅模式的推出，ChatGPT已经成为第一个以AI技术为核心直接变现的消费者应用。本文持有以下核心观点：1、ChatGPT是AI技术迭代的受益者。过去受限技术
未来的趋势————以ChatGPT为标杆的AI对生活的影响是巨大的 - 2
文章目录前言1.AI的发展历程2.我是如何接触到人工智能的概念和产品的3.对于ChatGPT的一点看法4.AI对大学毕业生的职业发展的利与弊5.对于AI的思考和问题前言随着ChatGPT的爆火，生成式AI，大模型的人工智能被越来越多的人注意到，同时他也带来了许多问题。本文将对几方面进行探讨。1.AI的发展历程远古时期在公元前第一个千禧年，中国，印度和希腊哲学家都提出了一些推理的研究理论，比如亚里士多德（Aristotle）进行了演绎推理三段论的完整分析，欧几里得（Euclid）所著Elements是一种形式推理的模型，MuḥammadibnMūsāal-Khwārizmī,发明了代数学，即我们
山石发声｜风暴眼中的ChatGPT，看NLPer怎么说？ - 2
当前科技领域最有热度的话题，无疑是OpenAI新提出的大规模对话语言模型ChatGPT，一经发布上线，短短五天就吸引了百万用户，仅一个多月的时间月活已然破亿，并且热度一直在持续发酵，各行各业的从业人员、企业机构都开始体验关注甚至自研“类ChatGPT”模型。这里，笔者从一位NLP从业人员的角度谈一谈对ChatGPT的一些看法和思考。1、ChatGPT诞生之路1.1BERT2018年，谷歌提出BERT（BidirectionalEncoderRepresentationfromTransformer）模型，一时之间疯狂屠榜，在各种自然语言处理领域建模任务中取得了最佳的成绩，NLP自此进入了大规模
ChatGPT教程之深入了解魔术背后的技术 - 2
解开谜团：深入探索ChatGPT的技术奇迹。ChatGpt无处不在，无论是在播客、博客、YouTube还是社交媒体上。当我注意到这项新技术如此受欢迎时，我决定试一试，我被震惊了！有很多关于ChatGpt及其魔力的博客，但在这篇博客中，我将深入探讨其内部技术及其工作原理！ChatGpt简介根据OpenAI，ChatGpt被描述为：“我们训练了一个名为ChatGpt的模型，它以对话方式进行交互。对话格式使ChatGpt可以回答后续问题、承认错误、挑战不正确的前提并拒绝不适当的请求。ChatGPT是InstructGPT的兄弟模型，它经过训练可以按照提示中的说明进行操作并提供详细的响应。”OpenA
火爆的ChatGPT快速学成，要看哪些书？ - 2
以前我们经常打趣说：***，你out了！当然了，玩笑成分居多。但是如果作为一名技术人员，现在还没有听说过ChatGPT，那么你可能真的“out”了。比尔·盖茨说，ChatGPT的重要性堪比互联网的发明，甚至它“将改变我们的世界”。ChatGPT得到科技界大佬的如此推崇，那么，ChatGPT到底是什么？ChatGPT是2022年11月底，美国OpenAI公司推出的一款人工智能聊天机器人。两个月后，ChatGPT的月活用户已经突破1亿，成为有史以来增长速度最快的消费者应用程序。ChatGPT功能极其强大，它能够通过学习和理解人类的语言进行对话，还能根据上下文进行互动，实现像人类一样的聊天交流。除了
ChatGPT陷伦理风波 “纯净版”机器人在赶来的路上 - 2
近期，AI安全问题闹得沸沸扬扬，多国“禁令”剑指ChatGPT。自然语言大模型采用人类反馈的增强学习机制，也被担心会因人类的偏见“教坏”AI。4月6日，OpenAI官方发声称，从现实世界的使用中学习是创建越来越安全的人工智能系统的“关键组成部分”，该公司也同时承认，这需要社会有足够时间来适应和调整。至于这个时间是多久，OpenAI也没给出答案。大模型背后的“算法黑箱”无法破解，开发它的人也搞不清机器作答的逻辑。十字路口在前，一些自然语言大模型的开发者换了思路，给类似GPT的模型立起规矩，让对话机器人“嘴上能有个把门的”，并“投喂”符合人类利益的训练数据，以便它们输出“更干净”的答案。这些研发