问题：

用于训练深度神经网络的强化学习

岳刚洁

2023-03-14

我计划编写一个国际象棋引擎，它使用深度卷积神经网络来评估国际象棋的位置。我将使用位板来表示棋盘状态，这意味着输入层应该有12*64个神经元用于位置，1个用于玩家移动（0表示黑色，1表示白色）和4个神经元用于铸币权（wks、bks、wqs、bqs）。将有两个隐藏层，每个层有515个神经元，一个输出神经元的值介于-1表示黑色获胜，1表示白色获胜，0表示相等的位置。所有神经元都将使用tanh（）激活函数。

我想过使用监督学习，通过向CNN提供许多由Stockfish评估的位置，但决定不这样做，因为这在某种意义上只是复制另一个引擎的评估功能。
因此，我决定使用强化学习，调整自玩游戏的权重和偏差。但是当我无法判断给定位置的正确评估是什么时，我如何训练神经网络？我如何“告诉”它给定的移动是一个错误，而另一个移动是优秀的？

我已经阅读了一些关于这个主题的论文和文章，但它们似乎都没有在解释训练过程时解释神经网络的调整...

所有答案都非常感谢：））

共有1个答案

太叔鸿博

2023-03-14

简单地说，给定所有棋子的位置，代理处于特定状态。每个状态都有一个值，可以通过各种方法学习该值（如果使用深度RL，则使用神经网络）。状态值通过后续状态中的预期回报（奖励）学习。因此，您可以通过模拟环境并从中获得奖励来训练神经网络。奖励和状态值将作为训练神经网络的目标。

类似资料：

用强化学习训练神经网络

我知道前馈神经网络的基本知识，以及如何使用反向传播算法对其进行训练，但我正在寻找一种算法，以便使用强化学习在线训练神经网络。例如，我想用人工神经网络解决手推车杆摆动问题。在这种情况下，我不知道应该怎么控制钟摆，我只知道我离理想位置有多近。我需要让安在奖惩的基础上学习。因此，监督学习不是一种选择。另一种情况类似于蛇游戏，反馈被延迟，并且仅限于进球和反进球，而不是奖励。我可以为第一种情况想出一些
十一、训练深度神经网络

第 10 章介绍了人工神经网络，并训练了第一个深度神经网络。但它非常浅，只有两个隐藏层。如果你需要解决非常复杂的问题，例如检测高分辨率图像中的数百种类型的对象，该怎么办？你可能需要训练更深的 DNN，也许有 10 层或更多，每层包含数百个神经元，通过数十万个连接相连。这可不像公园散步那么简单，可能碰到下面这些问题：你将面临棘手的梯度消失问题（或相关的梯度爆炸问题）：在反向传播过程中，梯度
十一、训练深层神经网络

第 10 章介绍了人工神经网络，并训练了我们的第一个深度神经网络。但它是一个非常浅的 DNN，只有两个隐藏层。如果你需要解决非常复杂的问题，例如检测高分辨率图像中的数百种类型的对象，该怎么办？你可能需要训练更深的 DNN，也许有 10 层，每层包含数百个神经元，通过数十万个连接来连接。这不会是闲庭信步：首先，你将面临棘手的梯度消失问题（或相关的梯度爆炸问题），这会影响深度神经网络，并使较
神经网络与深度学习

神经网络和深度学习是一本免费的在线书。本书会教会你：神经网络，一种美妙的受生物学启发的编程范式，可以让计算机从观测数据中进行学习深度学习，一个强有力的用于神经网络学习的众多技术的集合神经网络和深度学习目前给出了在图像识别、语音识别和自然语言处理领域中很多问题的最好解决方案。本书将会教你在神经网络和深度学习背后的众多核心概念。想了解本书选择的观点的更多细节，请看这里。或者直接跳到第一章开始
卷积神经网络训练

我有一个关于卷积神经网络（）训练的问题。我成功地使用tensorflow训练了一个网络，它获取一个输入图像（1600像素），然后输出三个匹配的类中的一个。使用不同的培训课程测试网络，效果良好。然而当我给它一个不同的第四个图像（不包含任何经过训练的3个图像）时，它总是返回一个随机匹配到其中一个类。我的问题是，如何训练网络来分类图像不属于这三个训练图像中的任何一个？类似的例子是，如果我针对mni
神经网络训练的建议

在本章中，我们将了解可以使用TensorFlow框架实现的神经网络训练的各个方面。以下几个建议，可以评估 - 1. 反向传播反向传播是计算偏导数的简单方法，其中包括最适合神经网络的基本形式的合成。 2. 随机梯度下降在随机梯度下降中，批处理是示例的总数，用户用于在单次迭代中计算梯度。到目前为止，假设批处理已经是整个数据集。最好的例子是谷歌规模; 数据集通常包含数十亿甚至数千亿个示例。 3.

用于训练深度神经网络的强化学习

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档