2.9. 稀疏逆协方差
优质
小牛编辑
134浏览
2023-12-01
协方差矩阵的逆矩阵,通常称为精度矩阵(precision matrix),它与部分相关矩阵(partial correlation matrix)成正比。 它给出部分独立性关系。换句话说,如果两个特征在其他特征上有条件地独立, 则精度矩阵中的对应系数将为零。这就是为什么估计一个稀疏精度矩阵是有道理的: 通过从数据中学习独立关系,协方差矩阵的估计能更好处理。这被称为协方差选择。
在小样本的情况,即 n_samples
是数量级 n_features
或更小, 稀疏的逆协方差估计往往比收敛的协方差估计更好。 然而,在相反的情况下,或者对于非常相关的数据,它们可能在数值上不稳定。 此外,与收敛估算不同,稀疏估计器能够恢复非对角线结构 (off-diagonal structure)。
GraphLasso
估计器使用 L1 惩罚执行关于精度矩阵的稀疏性: alpha
参数越高,精度矩阵的稀疏性越大。 相应的 GraphLassoCV
对象使用交叉验证来自动设置 alpha
参数。
Note
结构恢复
从数据中的相关性恢复图形结构是一个具有挑战性的事情。如果您对这种恢复感兴趣,请记住:
- 相关矩阵的恢复比协方差矩阵更容易:在运行
GraphLasso
前先标准化观察值 - 如果底层图具有比平均节点更多的连接节点,则算法将错过其中一些连接。
- 如果您的观察次数与底层图形中的边数相比不大,则不会恢复。
- 即使您具有良好的恢复条件,通过交叉验证(例如使用GraphLassoCV对象)选择的 Alpha 参数将导致选择太多边。 然而,相关边缘将具有比不相关边缘更重的权重。
数学公式如下:
![\hat{K} = \mathrm{argmin}_K \big(
\mathrm{tr} S K - \mathrm{log} \mathrm{det} K
+ \alpha \|K\|_1
\big)](img/43996aff9311511e6e2f81912a249c7e.jpg)
其中: 是要估计的精度矩阵(precision matrix), 是样本的协方差矩阵。 是非对角系数 (off-diagonal coefficients)的绝对值之和。 用于解决这个问题的算法是来自 Friedman 2008 Biostatistics 论文的 GLasso 算法。 它与 R 语言 glasso
包中的算法相同。
例子:
- Sparse inverse covariance estimation:
合成数据示例,显示结构的一些恢复,并与其他协方差估计器进行比较。
- Visualizing the stock market structure: 真实股票市场数据示例,查找哪些信号最相关。
参考文献:
- Friedman et al, “Sparse inverse covariance estimation with the graphical lasso”, Biostatistics 9, pp 432, 2008