QMIX_草庐IT

【多智能体强化学习】协作 + 值分解 + QMIX算法及其改进

将深度强化学习技术与多智能体协作相结合，可以帮助解决现代军事决策、虚拟游戏等多个领域中的复杂任务场景。而值分解是平衡智能体可拓展性和环境平稳性的重要思想。作为该思想的经典算法，QMIX将联合动作值函数近似为局部动作值函数的单调非线性组合，在StarCraftII游戏中取得了较好的表现。一、背景介绍因为任务场景更为复杂，还存在任务耦合情况，所以涌现了分层强化学习、多智能体强化学习方向的研究。多智能体强化学习不是单个智能体的简单堆叠。可以引入博弈论的理念，探寻问题的均衡解而不是最优解，最终得到让智能体都满意的策略组合。由单智能体过渡到多智能体会出现维度爆炸、环境非平稳性、信度分配问题。针对这些问题

多智能体强化学习—QMIX

多智能体强化学习—QMIX论文地址：https://arxiv.org/pdf/1803.11485.pdf1介绍首先介绍一下VDN（valuedecompositionnetworks）顾名思义，VDN是一种价值分解的网络，采用对每个智能体的值函数进行整合，得到一个联合动作值函数。为了简单阐述考虑两个智能体：（o-observations，a-actions，Q-action-valuefunction）当智能体观察他自己的目标时，但不一定是队友的目标，那么有：当(oi,aio^i,a^ioi,ai)不足以完全建模Qˉiπ(s,a)\bar{Q}_{i}^{\pi}(\mathb