目标

找到一个线性变换,将数据投影到低维空间,使得投影后的数据方差最大。

方法

,每一行表示一个维的样本,是样本数,是特征数。表示第个样本,被视作列向量。

我们希望找到一个单位向量 ,使得数据在这个方向上的方差最大:

由于是对称矩阵,因此可以分解为,其中是正交矩阵,是对角矩阵。,且

最大化等价于最大化,即最大化,等价于最大化,即最大化,即最大化

易得当时,取得最大值。

也就是的最大的特征值对应的特征向量。将此记作

接下来寻找使得方差第二大的方向。且要与正交。

因为为正交矩阵,所以若正交,则正交,即的第一个分量为0。

易得的第二个特征值对应的特征向量。