预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共62页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

主成分分析、因子分析 两者的适用条件是一致的,非 常类似,而且后者为前者的进 一步分析。 所以,两种方法在SPSS中均 采用同一个Factor过程。 流行病与卫生统计学系王静制作 主成分分析 PrincipalComponent Analysis 流行病与卫生统计学系王静制作 定义: 从多个数值变量(指标)之间的相互关 系入手,利用降维的思想,将多个变量 (指标)化为少数几个互不相关的综合 变量(指标)的统计方法。 流行病与卫生统计学系王静制作 举例说明: 对20例肝病患者进行肝功能测试,即 收集4个指标(转氨酶、肝大指数、硫酸锌 浊度、胎甲球)的测定得分,来评价患者的 肝功能。见PCA1.sav。 流行病与卫生统计学系王静制作 流行病与卫生统计学系王静制作 如何利用这4个随机变量对患者的肝功能作出评 价? 如果仅选用其中一个变量来评价,尽管方便,却 损失其它很多有用的信息,易产生片面的结论; 如果用各变量得分的合计来评价肝功能,虽然是 综合考虑了所有变量,但各变量是同等地从不同 侧面反映个体的性质。 流行病与卫生统计学系王静制作 事实上,各变量所包含的信息量多少不 一,各变量间不是独立的,而是有交叉、有 共性、相关的;变量间的共性一般以相关性 表示,相关愈大,则共性愈多,反之亦然。 流行病与卫生统计学系王静制作 能否找到一种合理的方法,消除各分析指标之间的 相关性,然后再进行全面评价? 措施: 我们可以根据这些随机变量,计算少数几个综 合指标,来反映多个原始变量所提供的信息,而且 各综合指标能够互相独立地代表某一方面的性质。 流行病与卫生统计学系王静制作 根据这些相互之间存在相关性的随机变量,计算 少数几个综合指标以取代原始变量,反映多个原 始变量所提供的信息——这种多元分析方法即 为主成分分析。 主成分分析的关键是:计算综合指标 主成分即综合指标,它在个体间的变异应该 越大越好。 流行病与卫生统计学系王静制作 主成分分析的应用条件 要求变量间存在较大的相关性,当相关较小 时,应用主成分分析是没有意义的。 流行病与卫生统计学系王静制作 主成分的性质及计算 流行病与卫生统计学系王静制作 设有m个指标x1,x2,…,xm,欲寻找可以概括 这m个指标主要信息的综合指标(即:主成分) C1,C2,…,Cn,(n≤m),这n个综合指标 是m个原始指标的标化值Z1~Zm的线性组合。 C1=a11Z1+a12Z2+…+a1mZm C2=a21Z1+a22Z2+…+a2mZm …… Cn=an1Z1+an2Z2+…+anmZm 流行病与卫生统计学系王静制作 从理论上讲,求得的主成分个数最多可有 m个,这时m个主成分就反映了全部原始 指标所提供的信息; 实际工作中,所确定的主成分个数n总是 小于原始指标个数m(n<m)。 流行病与卫生统计学系王静制作 计算过程: 第一步: 将m个变量各自标准化:zi=(xi-xi)/si, i=1,…,m 消除不同变量的不同量纲的影响。 流行病与卫生统计学系王静制作 第二步:寻求(计算)主成分: 首先寻求第一主成分C1j(j为研究对象个体序号) ,它必须是z1,z2,…,zm的线性组合,即C1j =a11z1+a12z2+…+a1mzm;在某个限制条件下, 使C1j的方差Var(C1j)达到最大,C1j就称为 第一主成分。 Var(C1j)=λ1,λ为特征根 流行病与卫生统计学系王静制作 流行病与卫生统计学系王静制作 如果C1j不足以代表m个变量,则考虑采用第二主成 分C2j,它也必须是z1,z2,…,zm的线性组合, 即C2j=a21z1+a22z2+…+a2mzm;在某个限制条 件下,使C2j的方差λ2达到最大。 如此往复,直至找到最多m个主成分(主成分的 个数不超过变量个数m)。 流行病与卫生统计学系王静制作 按各主成分所提供的信息大小顺序,分别称C1 ,C2,…,Cn为第一主成分、第二主成分、 …、第n主成分; 各主成分之间互不相关,即Ci与Cj之间的相关系 数rCi,Cj=0。 流行病与卫生统计学系王静制作 几个有关的术语及统计量 流行病与卫生统计学系王静制作 1、特征根: Var(Ci)=λi 各主成分所提供的信息量多少,常用其方差的大小 (即特征根λ)来衡量,λ愈大,该主成分提供 的信息量就愈大,可见:λ1>λ2>…>λm。 流行病与卫生统计学系王静制作 TotalVarianceExplained InitialEigenvalues ComponentTotal%ofVarianceCumulative% 11.71842.95642.