Networked Multi-Agent Reinforcement Learning in Continuous Spaces 笔记

衡子琪

2023-12-01

前言

针对多智能体协作场景，通过一个可能随时间变化的通讯网络交换信息，提出完全分布式ac算法，只依赖于neighbor-to-neighbor的通信。连续状态与动作空间，使用线性函数近似时具有收敛性保证。
解决巨大甚至连续的状态动作空间的常用算法是AC，技术核心是随机策略梯度SPG，但是梯度估计的方差很大，特别是连续动作空间。于是有了确定性策略梯度DPG以及对应的AC算法，专门针对连续动作空间设计。然而这需要off-policy的探索。作者的分布式MARL设置中，学习时agent不知道其他agent的策略。连续动作空间on-policy的AC算法借助期望策略梯度EPG。
作者针对完全分布式连续状态动作空间的MARL场景，1）将EPG的形式扩展到MARL；2）提出一个完全分布式的AC算法，只依赖neighbor-to-neighbor的通信；3）当使用线性函数近似时，有收敛性保证。这是第一个联系分布式架构与MARL的尝试，分布式指独立的MDP，MARL不是。
Networked multi-agent Markov decision process有一个随时间变化的无向通讯图。每个agent都能看到全局状态

Networked Multi-Agent Reinforcement Learning in Continuous Spaces 笔记

前言

相关阅读

相关文章

相关问答

相关文档