问题：

强化学习-不会融合

翟理

2023-03-14

我正在写学士论文。

我的主题是强化学习。设置：

Unity3D （C#）
自己的神经网络框架

通过测试来训练正弦函数，确认网络工作正常。它可以近似。好有些价值观达不到他们的期望值，但这已经足够好了。当用单个值训练它时，它总是收敛的。

这是我的问题：

我试着教我的网络一个简单游戏的Q值函数，接球：在这个游戏中，它只需要接住一个从随机位置和随机角度落下的球。1如果接住-1如果失败

我的网络模型有 1 个隐藏层，神经元范围从 45-180（我测试了这个数字但没有成功）

它使用来自100k存储器的32个样本的重放，学习率为0.0001。它学习50000帧，然后测试10000帧。这种情况会发生10次。输入是来自最后4帧的PlatformPosX、BallPosX、BallPosY

伪代码：

选择动作（e贪婪）

做行动，

存储状态操作，当前奖励。在内存中完成

如果在学习阶段：重播

我的问题是：

它的动作有时会开始剪裁为0或1，并有一些变化。它从来没有一个理想的政策，如果平台只是跟着球走。

编辑：很抱歉提供了廉价的信息…我的质量功能由：Reward Gamma（nextEstimated_Reward）训练，所以它的折扣。

共有1个答案

公良鸿禧

2023-03-14

你为什么会期望这能奏效？

您的训练几乎无法近似一维函数。现在你期望它求解一个涉及微分方程的 12 维函数？您应该首先验证您的训练是否确实收敛了多维函数，使用了所选的训练参数。

鉴于您提供的小细节，您的培训似乎也不合适。它几乎没有机会成功接球，即使成功接球，你也主要是随机输出奖励它。只有输入和输出之间的相关性是在最后几帧，当焊盘只能通过一组有限的可能动作及时到达目标时。

然后是输入的选择。不要求模型自行区分。相关输入将是x，y，dx，dy。最好是相对于焊盘位置的x、y，而不是世界。应该有更好的收敛机会。即使只是学习保持x最小。

使用绝对世界坐标几乎注定会失败，因为它需要训练来涵盖整个可能的输入组合范围。而且网络要足够大，甚至可以存储所有组合。请注意，网络不是在学习实际函数，而是在学习每一组可能的输入的近似值。即使理想的解实际上只是一个线性方程，激活函数的非线性性质使得不可能以广义形式学习它对于未绑定的输入。

类似资料：

强化学习

主要内容课程列表基础知识专项课程学习参考书籍论文专区课程列表课程机构参考书 Notes等其他资料 MDP和RL介绍8 9 10 11 Berkeley 暂无链接 MDP简介暂无 Shaping and policy search in Reinforcement learning 链接强化学习 UCL An Introduction to Reinforcement Lea
强化学习

强化学习（Reinforcement Learning）的输入数据作为对模型的反馈，强调如何基于环境而行动，以取得最大化的预期利益。与监督式学习之间的区别在于，它并不需要出现正确的输入/输出对，也不需要精确校正次优化的行为。强化学习更加专注于在线规划，需要在探索（在未知的领域）和遵从（现有知识）之间找到平衡。 Deep Q Learning.
5 强化学习

探索和利用。马尔科夫决策过程。Q 学习，策略学习和深度强化学习。我刚刚吃了一些巧克力来完成最后这部分。在监督学习中，训练数据带有来自神一般的“监督者”的答案。如果生活可以这样，该多好！在强化学习（RL）中，没有这种答案，但是你的强化学习智能体仍然可以决定如何执行它的任务。在缺少现有训练数据的情况下，智能体从经验中学习。在它尝试任务的时候，它通过尝试和错误收集训练样本（这个动作非常好，或者非常
十八、强化学习

强化学习（RL）如今是机器学习的一大令人激动的领域，也是最老的领域之一。自从 1950 年被发明出来后，它被用于一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和机器控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了 Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，在多数游戏中，比人类玩的还好，它仅
十六、强化学习

强化学习（RL）如今是机器学习的一大令人激动的领域，当然之前也是。自从 1950 年被发明出来后，它在这些年产生了一些有趣的应用，尤其是在游戏（例如 TD-Gammon，一个西洋双陆棋程序）和及其控制领域，但是从未弄出什么大新闻。直到 2013 年一个革命性的发展：来自英国的研究者发起了一项 Deepmind 项目，这个项目可以学习去玩任何从头开始的 Atari 游戏，甚至多数比人类玩的还要好，它
强化学习（Reinforcement Learning）

在本章中，您将详细了解使用Python在AI中强化学习的概念。强化学习的基础知识这种类型的学习用于基于评论者信息来加强或加强网络。也就是说，在强化学习下训练的网络从环境中接收一些反馈。然而，反馈是有评价性的，而不是像监督学习那样具有指导性。基于该反馈，网络执行权重的调整以在将来获得更好的批评信息。这种学习过程类似于监督学习，但我们的信息可能非常少。下图给出了强化学习的方框图 - 构建

强化学习-不会融合

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档