强化学习：Ｍarkov&POMDP

邴宏大

2023-12-01

Ｍarkov

首先，马尔可夫过程的大概意思就是**未来只与现在有关，与过去无关。**即定义如下：
$F_{t_{n}, t_{1}, t_{2} \ldots \ldots . t_{n-1}}\left(x_{n} \mid x_{1}, x_{2} \ldots \ldots x_{n} 1\right)=F_{t_{n} t_{n-1}}\left(x_{n} \mid x_{n} 1\right)$
这种“下一时刻的状态至于当前状态有关，与上一时刻状态无关”的性质，称为无后效性或者马尔可夫性。而具有这种性质的过程就称为马尔可夫过程。
在马尔可夫过程中有两个比较重要的概念：转移分布函数、转移概率

马氏过程 $X_{t}$ ，称条件概率 $F_{s, t}=P\left\{X_{t} \leq y \mid X_{s}=x\right\}$ 为过程的转移分布函数。
其条件概率 $f_{t_{n} \mid t_{n-1}}\left(x_{n} \mid x_{n} 1\right)$ 为转移概率密度，
称 $P\left(X_{t_{n}}=x_{n} \mid X_{t_{n}}=x_{n-1}\right)$ 为转移概率

POMDP

部分可观察马尔可夫决策过程（Partially Observable Markov Decision Process，缩写：POMDP），是一种通用化的马尔可夫决策过程。POMDP必须要根据模型的全域与部分区域观察结果来推断状态的分布，即对不完全状态信息进行建模，依据当前的确实信息做出决策，提高算法的泛化能力。
POMDP是可以用一个六元组（S，A，T，R，Z，O）描述，其中S表示系统所处环境的状态集合，其都是部分可观测的；；Ａ表示动作的有限集合；Ｚ表示观测值的有限集合；Ｔ：Ｓ×Ａ→π（Ｓ）是状态转移函数；Ｒ：Ｓ×Ａ→Ｒ是奖励函数；Ｏ：Ｓ×Ａ→π（Ｚ）是状态和系统所做动作给出的观测函数。

讨论

由于agent不直接观察environment的状态，因此agent必须在真实环境状态的不确定性下做出决策。然而，通过与环境交互并接收观察，agent可以通过更新当前状态的概率分布来更新其对真实状态的信念。这种性质的结果是最佳行为通常可能包括信息收集行动，这些行动纯粹是因为它们改善了agent人对当前状态的估计，从而使其能够在未来做出更好的决策。
将上述定义与马尔可夫决策过程的定义进行比较是有益的。 MDP（Markov decision process）不包括观察集，因为代理总是确切地知道环境的当前状态。或者，通过将观察组设定为等于状态组并定义观察条件概率以确定性地选择对应于真实状态的观察，可以将MDP重新表述为POMDP。

强化学习：Ｍarkov&POMDP

Ｍarkov

POMDP

讨论

相关阅读

相关文章

相关问答

相关文档