Google DeepMind 提出的一种使用Actor Critic
结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测.DDPG
结合了之前获得成功的DQN
结构, 提高了Actor Critic
的稳定性和收敛性.
DDPG
的算法实际上就是一种Actor Critic
,
关于Actor
部分, 他的参数更新同样会涉及到Critic
, 上面是关于Actor
参数的更新, 它的前半部分grad[Q]
是从Critic
来的, 这是在说:这次Actor
的动作要怎么移动, 才能获得更大的Q
, 而后半部分grad[u]
是从Actor
来的, 这是在说:Actor
要怎么样修改自身参数, 使得Actor
更有可能做这个动作. 所以两者合起来就是在说:Actor
要朝着更有可能获取大Q
的方向修改动作参数了.
上面这个是关于Critic
的更新, 它借鉴了DQN
和Double Q learning
的方式, 有两个计算Q
的神经网络,Q_target
中依据下一状态, 用Actor
来选择动作, 而这时的Actor
也是一个Actor_target
(有着 Actor 很久之前的参数). 使用这种方法获得的Q_target
能像DQN
那样切断相关性, 提高收敛性.