我们提出了分布式去中心近端策略优化(DD-PPO,DecentralizedDistributedProximalPolicyOptimization),这是一种在资源密集型模拟环境中进行分布式强化学习的方法。DD-PPO是分布式的(使用多台机器)、去中心化的(没有中央服务器)和同步的(没有任何计算是“过时的”),这使得它在概念上简单且易于实现。在Habitat-Sim中训练虚拟机器人进行的实验中,DD-PPO表现出近线性的扩展性。这种大规模的训练使得智能体在未知环境中通过RGB-D相机和GPS+Compass传感器,在没有地图的情况下,实现几乎完美的自主导航。幸运的是,误差与计算之间呈现出类