5 强化学习

优质
小牛编辑
123浏览
2023-12-01

探索和利用。马尔科夫决策过程。Q 学习,策略学习和深度强化学习。

我刚刚吃了一些巧克力来完成最后这部分。

在监督学习中,训练数据带有来自神一般的“监督者”的答案。如果生活可以这样,该多好!

在强化学习(RL)中,没有这种答案,但是你的强化学习智能体仍然可以决定如何执行它的任务。在缺少现有训练数据的情况下,智能体从经验中学习。在它尝试任务的时候,它通过尝试和错误收集训练样本(这个动作非常好,或者非常差),目标是使长期奖励最大。

在这个“写给人类的机器学习”的最后一章中,我们会探索:

  • 探索和利用的权衡
  • 马尔科夫决策过程(MDP),用于 RL 任务的经典配置
  • Q 学习,策略学习和深度强化学习
  • 最后,价值学习的问题

最后,像往常一样,我们编译了一些最喜欢的资源,用于深入探索。

让我们在迷宫中放一个机器老鼠

思考强化学习的最简单的语境是一个游戏,它拥有明确的目标和积分系统。

假设我们正在玩一个游戏,其中我们的老鼠正在寻找迷宫的尽头处的奶酪的终极奖励(