决策规划算法相关知识之 POMDP模型

子车修平

2023-12-01

（写给读者：本文旨在记录我自己对该算法（方法）的理解，用于面试中可能用得到的回答，因此尽量将该文写的口语化，尽量能懂，而不是高深的各种符号，但一些关键的公式还是会贴以加深记忆。）

思考问题及回答问题方式：是什么？为什么？怎么做？

1、是什么？

一个数学模型，用于在部分可知环境下进行决策的建模，显示世界中的许多决策问题能够抽象为这样一个POMDP（部分可观测的马尔科夫决策过程），然后从数学的层面来解决决策问题。

2、为什么？

POMDP是从MDP扩展而得，是MDP的一般化，MDP的决策是在环境已知的状态下进行决策，POMDP假设环境未知，在该状态下如何决策能够最大化奖励（最小化损失）。

3、怎么做？

一个问题抽象为数学模型时，将问题简化为一些状态，和动作，以及对环境的观测（存在噪声）。由于状态不完全已知，通过智能体的观测（传感器从环境中收集的信息），能够获得一个对于状态的估计，这种估计叫做信念状态，同时，智能体的动作会对自身状态产生改变，在一个新的状态下并观测产生一个新的状态估计。POMDP的目的是产生一系列决策（动作），使智能体按照这一系列动作能够产生最大的动作奖励值。这里涉及了观测模型，状态估计模型，奖励函数模型，状态转移模型等一系列环境模型的设计，精准的模型能够得到精准的决策。

决策规划算法相关知识之 POMDP模型

1、是什么？

2、为什么？

3、怎么做？

相关阅读

相关文章

相关问答

相关文档