当前位置：首页 > 专题 >

《强化学习》专题

强化学习工程师面试经验
1.介绍项目 2.用的什么算法（PPO） 3.强化学习与监督学习的一个区别（这里没答好） 4.状态空间动作空间奖励函数的设计 5.对抗决策为什么没用多智能体强化学习 6.时序差分是什么？贝尔曼方程是什么？ 7.面试官介绍公司，问家在哪，为什么选择西安。 8.HR问是否有其他offer，开了多少工资，为什么选择考国防科大
关于机器学习中的强化学习，什么是Q学习？
本文向大家介绍关于机器学习中的强化学习，什么是Q学习？，包括了关于机器学习中的强化学习，什么是Q学习？的使用技巧和注意事项，需要的朋友参考一下 Q学习是一种强化学习算法，其中包含一个“代理”，它采取达到最佳解决方案所需的行动。强化学习是“半监督”机器学习算法的一部分。将输入数据集提供给强化学习算法时，它会从此类数据集学习，否则会从其经验和环境中学习。当“强化代理人”执行某项操作时，将根据其是否
基于规则的系统学习算不算强化学习？
我正在读一本书，Glenn Seemann和David M Bourg的“游戏开发人员的AI”，他们使用视频游戏AI作为基于规则的学习系统的示例。基本上，玩家有3个可能的移动，并以三次打击的组合命中。人工智能旨在预测玩家的第三次打击。系统的规则是所有可能的三步组合。每个规则都有一个关联的“权重”。每次系统猜错，规则的权重就会降低。当系统必须选择规则时，它会选择权重最高的规则。这与基于强化学习的
强化学习：确定性策略梯度（DDPG）
在求期望时，需要对状态分布和动作分布进行积分。这就要求在状态空间和动作空间采集大量的样本，这样得到的均值才能近似期望。而确定性策略的动作是确定的，所以在确定性策略梯度存在的情况下，对确定性策略梯度的求解不需要在动作空间进行采样积分。因此，相比于随机策略方法，确定性策略需要的样本数据要小，确定性策略方法的效率比随机策略的效率高很多，这也是确定性策略方法的主要优点。
用新动作/扩展动作集强化学习
我想知道是否有任何关于新动作的RL问题的研究，例如，想象一个视频游戏，随着游戏的进行，代理学习更多的技能/策略，因此有更多的可用动作可供选择，因此动作集随着时间的推移而扩展。一个相关的问题强化学习中的状态依赖动作集但这个问题也没有足够的答案。谢谢！
1.14 第十三部分强化学习和控制
第十三部分强化学习（Reinforcement Learning）和控制（Control）这一章我们就要学习强化学习（reinforcement learning）和适应性控制（adaptive control）了。在监督学习（supervised learning）中，我们已经见过的一些算法，输出的标签类 $y$ 都是在训练集中已经存在的。这种情况下，对于每个输入特征 $x$，都有一个对应
强化学习：稀疏奖励（Reward Shaping，Curiosity，Curriculum Learning）
用强化学习训练智能体的时候，多数的时候 agent 都是没有办法得到 reward 的。在没有办法得到 reward 的情况下，训练 agent 是非常困难的。假设你要训练一个机器手臂，然后桌上有一个螺丝钉跟螺丝起子，那你要训练它用螺丝起子把螺丝钉栓进去，这个很难，为什么？因为一开始你的 agent 是什么都不知道的，它唯一能够做不同的 action 的原因是 exploration。在做 Q-learning 的时候，会有一些随机性
强化学习：基本概念，通信方式，IPPO，MADDPG
单个RL智能体通过与外界的交互来学习知识，具体过程是根据当前环境的状态，智能体通过策略给出的动作来对环境进行响应，相应地，智能体会得到一个奖励值以反馈动作的好坏程度。RL最重要的目标就是学习到能够使奖励最大化的策略，并且与监督学习的不同是这种奖励在很多情况下存在延迟。
【强化学习算法工程师】三面-主管面
时间：晚上10：16左右，20分钟左右面试官男，非常疲惫，每次我回答完问题都沉默了很久，声音也很疲惫。 1、问学校，学位证，毕业证 2、项目经理（sd、lora、fine-tune过程） 3、L2正则化解释一下 4、用过BN（batch normalization）吗？（答了梯度消失的时候的最佳解决方案，顺便扯了梯度消失的时候换激活函数，实际上还有梯度爆炸也可以用） 5、用过Dropout吗？
【强化学习算法工程师】算法岗二面
上来介绍项目相关，然后提问 1、有做过微调相关的吗？(答sd和lora,解释了底层架构和原理) 2、用过哪些网络？（常规问题） 3、正则化的方法？（常规问题） 4、常用的损失函数？(常规问题) 5、目标检测算法如何设计？(yolo相关的原理没准备好) 6、有部署过相关大模型的经验吗？(有过但不熟练) 7、有业务经验吗？(基本没有) 8、python用的怎么样？(还行，基本的算法都能写，但主要C/C
使用不可重复的动作进行强化学习
我对RL非常陌生，想知道RL的能力。在我的理解中，RL是一种神经网络，它反馈到一个状态并输出每个动作的概率。训练过程是为了减轻预测值和实际奖励值之间的差异（这里可能是错误的）。但是，我的问题很棘手。一开始，有一个动作空间[x1，x2，x3，x4，..，x5]，每一步之后，动作不能重复。换句话说，每次迭代后，动作空间都在缩小。“游戏”在动作空间为0时完成。这个游戏的目标是获得最高的累积奖励。我在
用于训练深度神经网络的强化学习
我计划编写一个国际象棋引擎，它使用深度卷积神经网络来评估国际象棋的位置。我将使用位板来表示棋盘状态，这意味着输入层应该有12*64个神经元用于位置，1个用于玩家移动（0表示黑色，1表示白色）和4个神经元用于铸币权（wks、bks、wqs、bqs）。将有两个隐藏层，每个层有515个神经元，一个输出神经元的值介于-1表示黑色获胜，1表示白色获胜，0表示相等的位置。所有神经元都将使用tanh（）激活函数
强化学习（实践）：DQN，Double DQN，Dueling DQN，格子环境
在车杆环境中，有一辆小车，智能体的任务是通过左右移动保持车上的杆竖直，若杆的倾斜度数过大，或者车子离初始位置左右的偏离程度过大，或者坚持时间到达 200 帧，则游戏结束。智能体的状态是一个维数为 4 的向量，每一维都是连续的，其动作是离散的，动作空间大小为 2，详情参见表 7-1 和表 7-2。在游戏中每坚持一帧，智能体能获得分数为 1 的奖励，坚持时间越长，则最后的分数越高，坚持 200 帧即可获得最高的分数。
强化学习：值函数逼近（线性，DQN，DDQN，Dueling DQN）
到目前为止，一直假定强化学习任务是在有限状态上进行的，这时的值函数其实是一个表格。对于状态值函数，其索引是状态；对于行为值函数，其索引是状态行为对。值函数迭代更新的过程实际上就是对这张表进行迭代更新，获取某一状态或行为价值的时候通常需要一个查表操作。因此，前面的强化学习算法称为表格型强化学习。
零跑汽车- 强化学习算法工程师面经
因为投的比较晚，所以目前进行到一面，后面是主管面和HR 面。一面（1小时20分钟）：主要是聊项目和论文，撕了一道蒙特卡洛估计的题从论文的DDPG算法开始聊，TD3，SAC算法，应用场景，优缺点啥的聊王者荣耀比赛，从网络结构设计（特征工程、channel attention，self-attention，multi-head value estimation），奖励函数设计，算法设计（dual

首页

1

2

3

4

5

6

尾页

最新发布

百度数据开发实习面经雷克沙测开二面上海百考丝信息科技有限公司--java面经海致科技--java面经京东Java一二面面经

推荐文章

算法是什么 java学习路线架构师需要哪些素质？C/C++进阶路线 JavaScipt进阶之路

相关问答

python - 明明有这个文件为什么还报错？前端 - 使用 wxt 框架开发浏览器扩展遇到的问题?前端 - 你们用react-markdown做聊天的时候，内容是流不断返回的，如果有图片的话。会造成页面闪烁，因为contten不断变化，重新渲染了。怎么解决的？vue2 - vue虚拟滚动列表vue-virtual-scroller滚动卡顿的问题？前端 - uni-app打包web站点，webview在app端如何上传非媒体类型文件？

推荐题库

小牛知识库超值大礼包总结C语言和Python区别 Python和C语言优劣势对比 JWT介绍？为什么JWT可以防止篡改？HBase数据表查询操作和获取多版本数据

工具软件

minimal-light Eclipse Corrosion Shiretoko NovelHarvester Conceal KAProgressLabel nba-go chan

文档资料

gRPC 官方文档中文版 Apple Watch 人机交互指南 Ruby 用户指南 Go Web 编程 Ruby 源码解读