草庐IT

【多智能体强化学习】协作 + 值分解 + QMIX算法及其改进

将深度强化学习技术与多智能体协作相结合,可以帮助解决现代军事决策、虚拟游戏等多个领域中的复杂任务场景。而值分解是平衡智能体可拓展性和环境平稳性的重要思想。作为该思想的经典算法,QMIX将联合动作值函数近似为局部动作值函数的单调非线性组合,在StarCraftII游戏中取得了较好的表现。一、背景介绍因为任务场景更为复杂,还存在任务耦合情况,所以涌现了分层强化学习、多智能体强化学习方向的研究。多智能体强化学习不是单个智能体的简单堆叠。可以引入博弈论的理念,探寻问题的均衡解而不是最优解,最终得到让智能体都满意的策略组合。由单智能体过渡到多智能体会出现维度爆炸、环境非平稳性、信度分配问题。针对这些问题

多智能体强化学习—QMIX

多智能体强化学习—QMIX论文地址:https://arxiv.org/pdf/1803.11485.pdf1介绍  首先介绍一下VDN(valuedecompositionnetworks)顾名思义,VDN是一种价值分解的网络,采用对每个智能体的值函数进行整合,得到一个联合动作值函数。为了简单阐述考虑两个智能体:(o-observations,a-actions,Q-action-valuefunction)  当智能体观察他自己的目标时,但不一定是队友的目标,那么有:  当(oi,aio^i,a^ioi,ai)不足以完全建模Qˉiπ(s,a)\bar{Q}_{i}^{\pi}(\mathb