当前位置: 首页 > 工具软件 > RobustPCA > 使用案例 >

PCA与Robust-PCA(一)

宋烨烁
2023-12-01

从数据降维谈起

数据降维的目标:(1)减少特征 (2)描述样本信息损失要小

数据降维的思路:从减少特征的角度来看,可能第一个想到的就是直接对特征进行筛选,剔除一些不必要的特征,然而现实中的数据特征往往具有耦合性,这种耦合性是指数据的两个特征之间往往并不是相互独立的,如果直接去掉其中某一个特征必然会伴随着信息的大量损失。因此,若要减少特征,应该先创造一组新的、彼此无关的特征来描述数据。
数据降维思路总结如下:
(1)去除数据之间的相关性,找到一组新的彼此无关的特征,新的特征彼此之间不相关
(2)在新的彼此无关的特征集中,剔除不重要的特征,保留较少特征的同时保证数据的损失较小

协方差矩阵

定义:
方差是度量单个随机变量的离散程度,协方差是度量两个随机变量的相似程度
方差的计算公式:
σ = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 \sigma = \frac {1}{n-1} \sum_{i=1}^n(x_i-\overline x)^2 σ=n11i=1n(xix)2

协方差的计算公式:
σ = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) ( y i − y ‾ ) \sigma = \frac {1}{n-1} \sum_{i=1}^n(x_i-\overline x)(y_i-\overline y) σ=n11i=1n(xix)(yiy)

协方差矩阵的对角线上元素由每个变量的方差值组成,除对角线外,某个位置(i, j)的元素是第i个元素与第j个元素的协方差值

根据以上定义,为使新的特征彼此之间不相关,等价于使得数据集经过一个线性变换后的协方差矩阵,除了对角线外其他元素的值均为0.

PCA求解过程

原始数据 A A A的协方差矩阵为 C C C, 其中 C = A A T C = AA^T C=AAT, 对数据做特征变换 P A PA PA,其中 P = ( p 1 , p 2 , … … , p n ) P = (p_1, p_2,……, p_n) P=(p1,p2,,pn) p i 和 p j p_i和p_j pipj相互正交,因此 P P P可以看作是一组新的基底, P A PA PA的几何意义就是将数据投影到新的基底上。在新的基底下,数据的各个新特征要保证彼此不相关,即 P A PA PA的协方差矩阵为一个对角矩阵 D D D(除了对角线元素,其他元素均为0),即

D = 1 n − 1 ( P A ) ( P A ) T = 1 n − 1 P A A T P T = 1 n − 1 P C P T D = \frac {1}{n-1}(PA)(PA)^T = \frac {1}{n-1}PAA^TP^T = \frac {1}{n-1}PCP^T D=n11(PA)(PA)T=n11PAATPT=n11PCPT

因此PCA问题的求解转换为:
求解使得矩阵 C C C对角化的矩阵 P P P,其中 C C C是对称矩阵,根据对称矩阵的性质, C C C必然可以被对角化,且可以通过矩阵分解,获得一组标准正交的特征向量

可对角化矩阵:如果一个方块矩阵 A A A相似于对角矩阵,也就是说存在一个可逆矩阵 P P P使得 P − 1 A P P^{-1}AP P1AP是对角矩阵,则它就被可对角化的

 类似资料: