摘要:在本案例中,我们将展示如何基于A2C算法,训练一个LunarLander小游戏。本文分享自华为云社区《使用A2C算法控制登月器着陆》,作者:HWCloudAI。LunarLander是一款控制类的小游戏,也是强化学习中常用的例子。游戏任务为控制登月器着陆,玩家通过操作登月器的主引擎和副引擎,控制登月器降落。登月器平稳着陆会得到相应的奖励积分,如果精准降落在着陆平台上会有额外的奖励积分;相反地如果登月器坠毁会扣除积分。A2C全称为AdvantageActor-Critic,在本案例中,我们将展示如何基于A2C算法,训练一个LunarLander小游戏。整体流程:基于gym创建LunarLa