今天在看CS231n的时候看到了一个名词“diffuse probability”, 扩散概率,Google了一下,在英文里直接定位到先验分布,用中文“扩散 概率”查,有少数文献提到“扩散先验”
其实“diffuse probability”就应该是“diffuse prior”,diffuse prior 也称之为 Uninformative priors (非信息先验),是先验概率的一种形式,
关于设置 diffuse prior 的原则有很多(其实也不是很多),但是最古老也是最经典的是“无差别原则”,也就是对所有的可能出现的情况分配一个均等的概率。从信息论(最大熵原则)的观点出发其实也可以证明这点。对于系统来说,如果它揭露出的信息越少那么它的熵就越大。因此如果我们想在X上寻找一组熵最大的分布,这样过的分布是满足约束条件下所包含信息最少的。对于离散的概率分布,我们会为每一种可能的状态分配一个相等的先验概率。对于连续概率分布,当概率密度归一化为均值为零且方差为1时,使熵最大先验就是标准高斯分布。
参考文档:Prior probability