预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共109页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第十三章主成分分析和因子分析主成分分析(principalcomponentsanalysis,简称PCA)是由霍特林(Hotelling)于1933年首先提出的。它通过投影的方法,实现数据的降维,在损失较少数据信息的基础上把多个指标转化为几个有代表意义的综合指标。13.1.1主成分分析的基本思想 假如对某一问题的研究涉及p个指标,记为X1,X2,…,Xp,由这p个随机变量构成的随机向量为X=(X1,X2,…,Xp),设X的均值向量为,协方差矩阵为。设Y=(Y1,Y2,…,Yp)为对X进行线性变换得到的合成随机向量,即 (13.1.1) 设i=(i1,i2,…,ip),(),A=(1,2,…,p),则有 (13.1.2)且 (13.1.3) 由式(13.1.1)和式(13.1.2)可以看出,可以对原始变量进行任意的线性变换,不同线性变换得到的合成变量Y的统计特征显然是不一样的。每个Yi应尽可能多地反映p个原始变量的信息,通常用方差来度量“信息”,Yi的方差越大表示它所包含的信息越多。由式(13.1.3)可以看出将系数向量i扩大任意倍数会使Yi的方差无限增大,为了消除这种不确定性,增加约束条件:为了有效地反映原始变量的信息,Y的不同分量包含的信息不应重叠。综上所述,式(13.1.1)的线性变换需要满足下面的约束: (1),即,i=1,2,…,p。 (2)Y1在满足约束(1)即的情况下,方差最大;Y2是在满足约束(1),且与Y1不相关的条件下,其方差达到最大;……;Yp是在满足约束(1),且与Y1,Y2,…,Yp-1不相关的条件下,在各种线性组合中方差达到最大者。 满足上述约束得到的合成变量Y1,Y2,…,Yp分别称为原始变量的第一主成分、第二主成分、…、第p主成分,而且各成分方差在总方差中占的比重依次递减。在实际研究工作中,仅挑选前几个方差较大的主成分,以达到简化系统结构的目的。13.1.2总体主成分求解及其性质 13.1.1节中提到主成分分析的基本思想是考虑合成变量的方差大小及其对原始变量波动(方差)的贡献大小,而对于原始随机变量X1,X2,…,Xp,其协方差矩阵或相关矩阵正是对各变量离散程度和相关程度的度量。在实际求解主成分时,一般从原始变量的协方差矩阵或相关矩阵的结构分析出发。1.从协方差矩阵出发求解主成分 设1是任意p1向量,求解主成份就是在约束条件下,求X的线性函数使其方差达到最大,即达到最大,且,其中是随机变量向量X=(X1,X2,…,Xp)的协方差矩阵。设1≥2≥…≥p≥0为的特征值,e1,e2,…,ep为矩阵各特征值对应的标准正交特征向量,则对于任意的ei和ej,有 (13.1.4) 且 (13.1.5)因此 (13.1.6) 当1=e1时有 (13.1.7) 此时达到最大值为1。同理有并且 (13.1.8)由上述推导得 (13.1.9) 可见Y1,Y2,…,Yp即为原始变量的p个主成份。因此,主成分的求解转变为求X1,X2,…,Xp协方差矩阵的特征值和特征向量的问题。2.主成份的性质 性质1Y的协方差矩阵为对角阵,即 (13.1.10) 性质2设=(ij)p×p是随机变量向量X的协方差矩阵,可得 即由此可见,主成分分析是把p个随机变量的总方差分解为p个不相关随机变量的方差之和1+2+…+P,则总方差中属于第i个主成分(被第i个主成分所解释)的比例为 (13.1.12) 称为第i个主成分的贡献度。定义 (13.1.13) 称为前m个主成分的累积贡献度,衡量了前m个主成份对原始变量的解释程度。性质3记第k个主成分Yk与原始变量Xi的相关系数为r(Yk,Xi),称为因子载荷,或者因子负荷量,则有 (13.1.14)3.从相关矩阵出发求解主成分 在实际应用时,为了消除原始变量量纲的影响,通常将数据标准化。考虑下面的标准化变化,令 (13.1.15) 其中i,ii分别表示随机变量Xi的期望与方差,则 原始变量的相关矩阵就是原始变量标准化后的协方差矩阵,因此,由相关矩阵求主成分的过程与由协方差矩阵求主成分的过程是一致的。如果仍然采用(λi,ei)表示相关矩阵R对应的特征值和标准正交特征向量,根据式(13.1.9)有: (13.1.17) 由相关矩阵求得的主成分仍然满足性质1~3。性质3可以进一步表示为: (13.1.18)13.1.3样本的主成分 1.样本统计量 在实际工作中,我们通常无法获得总体的协方差矩阵和相关矩阵R。因此,需要采用样本数据来估计。设从均值向量为,协方差矩阵为的p维总体中得到的n个样本,且样本数据矩阵为 (13.1.19)则样本协方差矩阵为: (13.1.20) 其中