5 强化学习
优质
小牛编辑
186浏览
2023-12-01
探索和利用。马尔科夫决策过程。Q 学习,策略学习和深度强化学习。
我刚刚吃了一些巧克力来完成最后这部分。
在监督学习中,训练数据带有来自神一般的“监督者”的答案。如果生活可以这样,该多好!
在强化学习(RL)中,没有这种答案,但是你的强化学习智能体仍然可以决定如何执行它的任务。在缺少现有训练数据的情况下,智能体从经验中学习。在它尝试任务的时候,它通过尝试和错误收集训练样本(这个动作非常好,或者非常差),目标是使长期奖励最大。
在这个“写给人类的机器学习”的最后一章中,我们会探索:
- 探索和利用的权衡
- 马尔科夫决策过程(MDP),用于 RL 任务的经典配置
- Q 学习,策略学习和深度强化学习
- 最后,价值学习的问题
最后,像往常一样,我们编译了一些最喜欢的资源,用于深入探索。
让我们在迷宫中放一个机器老鼠
思考强化学习的最简单的语境是一个游戏,它拥有明确的目标和积分系统。
假设我们正在玩一个游戏,其中我们的老鼠正在寻找迷宫的尽头处的奶酪的终极奖励(