预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共64页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据分析(方法与案例)模型选择是艺术,而不是科学。 ——WilliamNavidi第12章主成分分析和因子分析学习目标在研究实际问题时,往往需要收集多个变量。但这样会使多个变量间存在较强的相关关系,即这些变量间存在较多的信息重复,直接利用它们进行分析,不但模型复杂,还会因为变量间存在多重共线性而引起较大的误差 为能够充分利用数据,通常希望用较少的新变量代替原来较多的旧变量,同时要求这些新变量尽可能反映原变量的信息 主成分分析和因子分子正式解决这类问题的有效方法。它们能够提取信息,使变量简化降维,从而使问题更加简单直观因子分析得到的是什么?因子分析得到的是什么?因子分析得到的是什么?12.1主成分分析 12.1.1主成分分析的基本原理 12.1.2主成分分析的数学模型 12.1.3主成分分析的步骤12.1.1主成分分析的基本原理主成分的概念由KarlPearson在1901年提出 考察多个变量间相关性一种多元统计方法 研究如何通过少数几个主成分(principalcomponent)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关 主成分分析的目的:数据的压缩;数据的解释 常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信息进行适当的解释对这两个相关变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理 假定只有两个变量x1和x2,从散点图可见两个变量存在相关关系,这意味着两个变量提供的信息有重叠椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据的变化明显较大,而短轴方向变化则较小 如果沿着长轴方向设定一个新的坐标系,则新产生的两个变量和原始变量间存在一定的数学换算关系,同时这两个新变量之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,而多维变量的情形类似,只不过是一个高维椭球,无法直观地观察 每个变量都有一个坐标轴,所以有几个变量就有几主轴。首先把椭球的各个主轴都找出来,再用代表大多数数据信息的最长的几个轴作为新变量,这样,降维过程也就完成了12.1.2主成分分析的数学模型选择几个主成分?选择标准是什么? 被选的主成分所代表的主轴的长度之和占了主轴总程度之和的大部分 在统计上,主成分所代表的原始变量的信息用其方差来表示。因此,所选择的第一个主成分是所有主成分中的方差最大者,即Var(yi)最大 如果第一个主成分不足以代表原来的个变量,在考虑选择第二个主成分,依次类推 这些主成分互不相关,且方差递减究竟选择几个主成分才合适呢? 一般要求所选主成分的方差总和占全部方差的80%以上就可以了。当然,这只是一个大体标准,具体选择几个要看实际情况 如果原来的变量之间的相关程度高,降维的效果就会好一些,所选的主成分就会少一些,如果原来的变量之间本身就不怎么相关,降维的效果自然就不好 不相关的变量就只能自己代表自己了12.1.3主成分分析的步骤对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响 根据标准化后的数据矩阵求出相关系数矩阵 求出协方差矩阵的特征根和特征向量 确定主成分,并对各主成分所包含的信息给予适当的解释【例12-1】根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释第1步选择【Analyze】下拉菜单,并选择【DataReduction- Factor】,进入主对话框 第2步在主对话框中将所有原始变量选入【Variables】 第3步点击【Descriptives】,在【correlationMatrix】下选择 【Coefficirnts】,点击【Continue】回到主对话框 第4步点击【Extraction】,在【Display】下选择【Scree Plot】,点击【Continue】回到主对话框 第5步点击【Rotation】,在【Display】下选择【Loading Plot】,点击【Continue】回到主对话框 点击【OK】“InitialEigenvalues”(初始特征根) 实际上就是本例中的6个主轴的长度 特征根反映了主成分对原始变量的影响程度,表示引入该主成分后可以解释原始变量的信息 特征根又叫方差,某个特征根占总特征根的比例称为主成分方差贡献率 设特征根为,则第i个主成分的方差贡献率为 比如,第一个主成分的特征根为3.963,占总特征根的的比例(方差贡献率)为66.052%,这表示第一个主成分解释了原始6个变量66.052%的信息,可见第一个主成分对原来的6个变量解释的已经很充分了根据主成分贡献率 一般来说,主成分的累计方差贡献率达到80%以上的前几个主成分,都可以选作最后的主成分 比如表13.3中前两个主成分的累计方差贡献率为95.57