针对多智能体协作场景,通过一个可能随时间变化的通讯网络交换信息,提出完全分布式ac算法,只依赖于neighbor-to-neighbor的通信。连续状态与动作空间,使用线性函数近似时具有收敛性保证。
解决巨大甚至连续的状态动作空间的常用算法是AC,技术核心是随机策略梯度SPG,但是梯度估计的方差很大,特别是连续动作空间。于是有了确定性策略梯度DPG以及对应的AC算法,专门针对连续动作空间设计。然而这需要off-policy的探索。作者的分布式MARL设置中,学习时agent不知道其他agent的策略。连续动作空间on-policy的AC算法借助期望策略梯度EPG。
作者针对完全分布式连续状态动作空间的MARL场景,1)将EPG的形式扩展到MARL;2)提出一个完全分布式的AC算法,只依赖neighbor-to-neighbor的通信;3)当使用线性函数近似时,有收敛性保证。这是第一个联系分布式架构与MARL的尝试,分布式指独立的MDP,MARL不是。
Networked multi-agent Markov decision process有一个随时间变化的无向通讯图。每个agent都能看到全局状态 s t