极客时间已完结课程限时免费阅读

42 | PCA主成分分析(上):如何利用协方差矩阵来降维?

42 | PCA主成分分析(上):如何利用协方差矩阵来降维?-极客时间

42 | PCA主成分分析(上):如何利用协方差矩阵来降维?

讲述:黄申

时长11:11大小10.22M

你好,我是黄申。
在概率统计模块,我详细讲解了如何使用各种统计指标来进行特征的选择,降低用于监督式学习的特征之维度。接下来的几节,我会阐述两种针对数值型特征,更为通用的降维方法,它们是主成分分析 PCA(Principal Component Analysis)和奇异值分解 SVD(Singular Value Decomposition)。这两种方法是从矩阵分析的角度出发,找出数据分布之间的关系,从而达到降低维度的目的,因此并不需要监督式学习中样本标签和特征之间的关系。

PCA 分析法的主要步骤

我们先从主成分分析 PCA 开始看。
在解释这个方法之前,我先带你快速回顾一下什么是特征的降维。在机器学习领域中,我们要进行大量的特征工程,把物品的特征转换成计算机所能处理的各种数据。通常,我们增加物品的特征,就有可能提升机器学习的效果。可是,随着特征数量不断的增加,特征向量的维度也会不断上升。这不仅会加大机器学习的难度,还会影响最终的准确度。针对这种情形,我们需要过滤掉一些不重要的特征,或者是把某些相关的特征合并起来,最终达到在减少特征维度的同时,尽量保留原始数据所包含的信息。
了解了这些,我们再来看今天要讲解的 PCA 方法。它的主要步骤其实并不复杂,我一说你就能明白,但是为什么要这么做,你可能并不理解。咱们学习一个概念或者方法,不仅要知道它是什么,还要明白是怎么来的,这样你就能知其然,知其所以然,明白背后的逻辑,达到灵活运用。因此,我先从它的运算步骤入手,给你讲清楚每一步,然后再解释方法背后的核心思想。
和线性回归的案例一样,我们使用一个矩阵来表示数据集。我们假设数据集中有 m 个样本、n 维特征,而这些特征都是数值型的,那么这个集合可以按照如下的方式来展示。
那么这个样本集的矩阵形式就是这样的:
这个矩阵是 m×n 维的,其中每一行表示一个样本,而每一列表示一维特征。让我们把这个矩阵称作样本矩阵,现在,我们的问题是,能不能通过某种方法,找到一种变换,可以降低这个矩阵的列数,也就是特征的维数,并且尽可能的保留原始数据中有用的信息?
针对这个问题,PCA 分析法提出了一种可行的解决方案。它包括了下面这样几个主要的步骤:
标准化样本矩阵中的原始数据;
获取标准化数据的协方差矩阵;
计算协方差矩阵的特征值和特征向量;
依照特征值的大小,挑选主要的特征向量;
生成新的特征。
下面,我们一步步来看。

1. 标准化原始数据

之前我们已经介绍过特征标准化,这里我们需要进行同样的处理,才能让每维特征的重要性具有可比性。为了便于你回顾,我把标准化的公式列在了这里。
其中 为原始值, 为均值, 为标准差, 是变换后的值。需要注意的是,这里标准化的数据是针对同一种特征,也是在同一个特征维度之内。不同维度的特征不能放在一起进行标准化。

2. 获取协方差矩阵

首先,我们来看一下什么是协方差(Covariance),以及协方差矩阵。协方差是用于衡量两个变量的总体误差。假设两个变量分别是 ,而它们的采样数量都是 ,那么协方差的计算公式就是如下这种形式:
其中 表示变量 的第 个采样数据, 表示这 个采样的平均值。而当两个变量是相同时,协方差就变成了方差。
那么,这里的协方差矩阵又是什么呢?我们刚刚提到了样本矩阵,假设 表示样本矩阵 的第 列, 表示样本矩阵 的第 列,依次类推。而 表示第 1 列向量和自己的协方差,而 表示第 1 列向量和第 2 列向量之间的协方差。结合之前协方差的定义,我们可以得知:
其中, 表示矩阵中第 行,第 列的元素。 表示第 列的平均值。
有了这些符号表示,我们就可以生成下面这种协方差矩阵。
从协方差的定义可以看出,,所以 是个对称矩阵。另外,我们刚刚提到,对于 ,如果 ,那么 也就是 这组数的方差。所以这个对称矩阵的主对角线上的值就是各维特征的方差。

3. 计算协方差矩阵的特征值和特征向量

需要注意的是,这里所说的矩阵的特征向量,和机器学习中的特征向量(Feature Vector)完全是两回事。矩阵的特征值和特征向量是线性代数中两个非常重要的概念。对于一个矩阵 ,如果能找到向量 和标量 ,使得下面这个式子成立。
那么,我们就说 是矩阵 的特征向量,而 是矩阵 的特征值。矩阵的特征向量和特征值可能不止一个。说到这里,你可能会好奇,特征向量和特征值表示什么意思呢?我们为什么要关心这两个概念呢?简单的来说,我们可以把向量 左乘一个矩阵 看做对 进行旋转或拉伸,而这种旋转和拉伸都是由于左乘矩阵 后,所产生的“运动”所导致的。特征向量 表示了矩阵 运动的方向,特征值 表示了运动的幅度,这两者结合就能描述左乘矩阵 所带来的效果,因此被看作矩阵的“特征”。在 PCA 中的主成分,就是指特征向量,而对应的特征值的大小,就表示这个特征向量或者说主成分的重要程度。特征值越大,重要程度越高,我们要优先现在这个主成分,并利用这个主成分对原始数据进行变换。
如果你还是有些困惑,我会在下面一节,讲解更多的细节。现在,让我们先来看看给定一个矩阵,如何计算它的特征值和特征向量,并完成 PCA 分析的剩余步骤。我在下面列出了计算特征值的推导过程:
其中 I 是单位矩阵。对于上面推导中的最后一步,我们需要计算矩阵的行列式。
最后,通过解这个方程式,我们就能求得各种λ的解,而这些解就是特征值。计算完特征值,我们可以把不同的λ值代入 ,来获取特征向量。

4. 挑选主要的特征向量,转换原始数据

假设我们获得了 k 个特征值和对应的特征向量,那么我们就有:
按照所对应的λ数值的大小,对这 k 组的 v 排序。排名靠前的 v 就是最重要的特征向量。
假设我们只取前 k1 个最重要的特征,那么我们使用这 k1 个特征向量,组成一个 n×k1 维的矩阵 D。
把包含原始数据的 m×n 维矩阵 X 左乘矩阵 D,就能重新获得一个 m×k1 维的矩阵,达到了降维的目的。
有的时候,我们无法确定 k1 取多少合适。一种常见的做法是,看前 k1 个特征值的和占所有特征值总和的百分比。假设一共有 10 个特征值,总和是 100,最大的特征值是 80,那么第一大特征值占整个特征值之和的 80%,我们认为它能表示 80% 的信息量,还不够多。那我们就继续看第二大的特征值,它是 15,前两个特征值之和有 95,占比达到了 95%,如果我们认为足够了,那么就可以只选前两大特征值,把原始数据的特征维度从 10 维降到 2 维。

小结

这一节,我首先简要地重温了为什么有时候需要进行特征的降维和基于分类标签的特征选择。随后,我引出了和特征选择不同的另一种方法,基于矩阵操作的 PCA 主成分分析。这种方法的几个主要步骤包括,标准化原始数据、获得不同特征的协方差矩阵、计算协方差矩阵的特征值和特征向量、选择最重要的主成分,以及通过所选择的主成分来转换原始的数据集。
要理解 PCA 分析法是有一定难度的,主要是因为两点原因:第一,计算的步骤有些复杂。第二,这个方法的核心思路有些抽象。这两点可能会让刚刚接触 PCA 的学习者,感到无从下手。
为了帮助你更好的理解,下一节,我会使用一个示例的矩阵进行详细的推算,并用两种 Python 代码进行结果的验证。除此之外,我还会分析几个要点,包括 PCA 为什么使用协方差矩阵?这个矩阵的特征值和特征向量又表示什么?为什么特征值最大的主成分涵盖最多的信息量?明白了这些,你就能深入理解为什么 PCA 分析法要有这些步骤,以及每一步都代表什么含义。

思考题

给定这样一个矩阵:
假设这个矩阵的每一列表示一个特征的维度,每一行表示一个样本。请完成
按照列(也就是同一个特征维度)进行标准化。
生成这个矩阵的协方差矩阵。
欢迎留言和我分享,也欢迎你在留言区写下今天的学习笔记。你可以点击“请朋友读”,把今天的内容分享给你的好友,和他一起精进。
分享给需要的人,Ta购买本课程,你将得20
生成海报并分享

赞 3

提建议

上一篇
41 | 线性回归(下):如何使用最小二乘法进行效果验证?
下一篇
43 | PCA主成分分析(下):为什么要计算协方差矩阵的特征值和特征向量?
unpreview
 写留言

精选留言(11)

  • qinggeouye
    2019-03-31
    markdown 语法支持不是很好 (1) 标准化原始数据 $$ x' = \frac{x-μ}{σ} $$ 第一列 均值 $μ_1 = 0$ , 方差 ${σ_1}^2 = [(1-0)^2 + (2-0)^2 + (-3-0)^2]/3 = 14/3$ 第二列 均值 $μ_2 =1/3 $ , 方差 ${σ_2}^2 = [(3-1/3)^2 + (5-1/3)^2 + (-7-1/3)^2]/3 = 248/9$ 第三列 均值 $μ_3 =-19/3 $ , 方差 ${σ_3}^2 = [(-7+19/3)^2 + (-14+19/3)^2 + (2+19/3)^2]/3 = 386/9$ 则, $$ \mathbf{X'} = \begin{vmatrix} 0.46291005&0.50800051&-0.10179732\\0.9258201&0.88900089&-1.17066918\\-1.38873015&-1.3970014&1.2724665\\\end{vmatrix} $$ (2)协方差矩阵 $$ \mathbf{cov(X_{,i}, X_{,j})} = \frac{\sum_{k=1}^m(x_{k,i} - \bar{X_{,i}})(x_{k,j} - \bar{X_{,j}})}{m-1} $$ $$ \mathbf{X'}.mean(asix=0) = [0,0, -7.401486830834377e-17] $$ $$ \mathbf{cov(X_{,i}, X_{,j})} = \frac{(\mathbf{X'[:,i-1]} - \mathbf{X'[:,i-1]}.mean()).transpose().dot(\mathbf{X'[:,j-1]} - \mathbf{X'[:,j-1]}.mean())} {m-1} $$ 协方差矩阵(对角线上是各维特征的方差): $$ \mathbf{COV} = \begin{vmatrix} \mathbf{cov(X_{,1}, X_{,1})} & \mathbf{cov(X_{,1}, X_{,2})} & \mathbf{cov(X_{,1}, X_{,3})} \\ \mathbf{cov(X_{,2}, X_{,1})} & \mathbf{cov(X_{,2}, X_{,2})} & \mathbf{cov(X_{,2}, X_{,3})} \\ \mathbf{cov(X_{,3}, X_{,1})} &\mathbf{cov(X_{,3}, X_{,2})} &\mathbf{cov(X_{,3}, X_{,3})}\\\end{vmatrix} = \begin{vmatrix} 1.5 & 1.4991357 & -1.44903232 \\ 1.4991357 & 1.5 & -1.43503825 \\ -1.44903232 & -1.43503825 & 1.5 \\\end{vmatrix} $$
    展开
    共 2 条评论
    4
  • 余泽锋
    2019-04-11
    import numpy as np import pandas as pd from sklearn.preprocessing import scale array = np.array([[1, 3, -7], [2, 5, -14], [-3, -7, 2]]) array = scale(array) df = pd.DataFrame(array) df.corr()
    展开
    共 1 条评论
    3
  • Joe
    2019-03-22
    一直有个问题为什么协方差是除以m-1,而不是m。方差,均方根等公式也是除m-1。好奇怪。

    作者回复: 这是个很好的问题,涉及的内容比较多,我可以放在后面答疑来解释

    3
  • 骑行的掌柜J
    2020-07-06
    这里Xn,1+...... 后面的括号是不是写错了?还是写掉了一部分?黄老师 (x1,1​−λ)(x2,2​−λ)…(xn,n​−λ)+x1,2​x2,3​…xn−1,n​xn,1​+…)−(xn,1​xn−1,2​…x2,n−1​x1,n​)=0 谢谢 因为有点没看懂😂

    作者回复: 应该是排版的格式问题,我查了一下自己的原稿,式子最左边还有一个左括号

    1
  • yaya
    2019-03-22
    所以上只是讲解pca的步骤吗?非常赞同要明白他是为什么被提出的,怎么来的观点,但是pca如果只是记步骤很容易忘记,觉得还是从如何建模,然后推导而来更有印象。

    作者回复: 非常同意,我会在下一篇解释为什么PCA要这么做

    1
  • !null
    2021-08-23
    是不是只有方阵才能求特征值和特征向量?特征值和特征向量的个数与矩阵的维度有关系吗?特征向量的维度和矩阵的维度有关系吗?

    作者回复: 是的,如果是非方阵,可以使用SVD奇异值分解

  • 牛奶
    2021-03-12
    请问,在解释协方差公式的时候,xbar是不是应该表示的是“m个样本x这个属性的平均值”?还有一个问题就是,关于这句“协方差是用于衡量两个变量的总体误差”,对于协方差的意义我只能理解到,协方差表示的是两个变量之间的相关性,为什么是两个变量的总体误差呢?

    作者回复: 对,xbar是平均值。你说的相关性和协方差类似,但不同。类似之处在于,它们都是研究两个变量之间的关系。不同在于,两个变量的相关系数是看它们是否同时往一个方向变化。如果变量A变大,B也变大,A变小B也变小,那么就是正相关,用正数。反之,A变大B变小,A变小B变大,那么就是负相关,用负数表示。而两者的协方差永远是正的

  • 建强
    2020-11-01
    1.标准化 第一步:计算每列平均值: E(X1) = 0, E(X2) = 1/3, E(X3) = -19/3 第二步:计算每列方差: D(X1) = 14/3, D(X2) = 248/9, D(X3) = 386/9 第三步:根据标准化公式:[X - E(X)] / SQRT[D(X)]做标准化处理,结果: X11 = 0.4628, X12 = 0.508, X13 = -0.1018 X21 = 0.9258, X22 = 0.889, X23 = -1.1707 X31 = -1.389, X32 = -1,397, X33 = 1.2725 2.协方差矩阵 [[ 7. , 17. , -20.5 ], [ 17. , 41.33333333, -49.33333333], [-20.5 , -49.33333333, 64.33333333]]
    展开
    共 1 条评论
    1
  • !null
    2020-10-10
    |(X-λI)| 那个竖线是什么意思?行列式是什么意思?怎么算的

    作者回复: 从几何的角度来理解,行列式的计算是为了求解n维空间中平行体的体积

  • 罗耀龙@坐忘
    2020-05-09
    茶艺师学编程 在隔壁《人人都能学会的编程入门课》找虐回来,继续找黄老师找虐。 而且今天作业又是和留言框过不去…… 标准化: [ 0.378 0.577 0.083 0.755 0.577 -0.956 -1.133 -1.155 1.039 ] 协方差矩阵: [ 1 0.981 -0.934 0.981 0.9999 -0.804 -0.934 -0.804 1.014 ]
    展开
  • 黄振宇
    2019-11-29
    有个问题,黄老师能否帮忙解答下。 降维后的特征集合是之前所有特征的子集合吗,是相当于是先对数据的特征向量做了筛选吗?只不过我们把筛选的工作交给了特征值? 还是说降维之后乘以新的特征向量之后,原始数据的意义是否变了呢?