多智能体强化学习—QMIX论文地址:https://arxiv.org/pdf/1803.11485.pdf1介绍 首先介绍一下VDN(valuedecompositionnetworks)顾名思义,VDN是一种价值分解的网络,采用对每个智能体的值函数进行整合,得到一个联合动作值函数。为了简单阐述考虑两个智能体:(o-observations,a-actions,Q-action-valuefunction) 当智能体观察他自己的目标时,但不一定是队友的目标,那么有: 当(oi,aio^i,a^ioi,ai)不足以完全建模Qˉiπ(s,a)\bar{Q}_{i}^{\pi}(\mathb