PCA(Principal Component Analysis)

目标

找到一个线性变换，将数据投影到低维空间，使得投影后的数据方差最大。

方法

设 $X \in R^{n \times p}$ ,每一行表示一个 $p$ 维的样本， $n$ 是样本数， $p$ 是特征数。 $X_{i}$ 表示第 $i$ 个样本， $X_{i} \in R^{p}$ 被视作列向量。

我们希望找到一个单位向量 $w \in R^{p}$ ，使得数据在这个方向上的方差最大： $Va r (X w)$

\overline{X} := \frac{1}{n} i = 1 \sum n X_{i}

\tilde{X} := X - 1 \overline{X}^{T}

\overline{X w} = \frac{1}{n} i = 1 \sum n (X w)_{i} = \frac{1}{n} i = 1 \sum n X_{i}^{T} w = \overline{X}^{T} w

Va r (X w) = \frac{1}{n - 1} (X w - 1 \overline{X w})^{T} (X w - 1 \overline{X w}) = \frac{1}{n - 1} (X w - 1 \overline{X}^{T} w)^{T} (X w - 1 \overline{X}^{T} w) = \frac{1}{n - 1} (\tilde{X} w)^{T} (\tilde{X} w) = \frac{1}{n - 1} w^{T} \tilde{X}^{T} \tilde{X} w

$Σ := \tilde{X}^{T} \tilde{X}$

由于 $Σ$ 是对称矩阵，因此 $Σ$ 可以分解为 $Σ = Q Λ Q^{T}$ ，其中 $Q$ 是正交矩阵， $Λ$ 是对角矩阵。 $Λ = diag (λ_{1}, λ_{2}, \dots, λ_{p})$ ，且 $λ_{1} \geq λ_{2} \geq \dots \geq λ_{p} \geq 0$ 。

$z := Q^{T} w$

最大化 $Va r (X w)$ 等价于最大化 $w^{T} \tilde{X}^{T} \tilde{X} w$ ，即最大化 $w^{T} Σ w$ ，等价于最大化 $w^{T} Q Λ Q^{T} w$ ，即最大化 $z^{T} Λ z$ ，即最大化 $\sum_{i = 1}^{p} λ_{i} z_{i}^{2}$ 且 $∥ z ∥_{2} = 1$ 。

易得当 $z = (1, 0, \dots, 0)^{T}$ 时， $w^{T} Σ w$ 取得最大值。

Q^{T} w w = (1, 0, \dots, 0)^{T} = Q (1, 0, \dots, 0)^{T}

也就是 $w$ 为 $Σ$ 的最大的特征值对应的特征向量。将此 $w$ 记作 $w_{1}$

接下来寻找使得方差第二大的方向 $w_{2}$ 。且要与 $w_{1}$ 正交。

因为 $Q$ 为正交矩阵，所以若 $w_{2}$ 与 $w_{1}$ 正交，则 $Q^{T} w_{2}$ 与 $Q^{T} w_{1}$ 正交，即 $Q^{T} w_{2}$ 的第一个分量为0。

易得 $w_{2}$ 为 $Σ$ 的第二个特征值对应的特征向量。

Blogs

探索

PCA(Principal Component Analysis)

目标

方法

关系图谱

目录