预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

主成分分析和因子分析 史会峰 华北电力大学(保定) 2014年6月14日 史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日1/28 主成分分析PrincipalcomponentsanalysisPCA 主成分分析是一种分析、简化数据集的技术。主成分分析经常 用于减少数据集的维数,同时保持数据集中的对方差贡献最大的 特征。这是通过保留低阶主成分,忽略高阶主成分做到的。 主成分分析是最简单的以特征量分析多元统计分布的方法,其 方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成 分(特征向量)与它们的权值(特征值)。PCA提供了一种降低数据维 度的有效办法;如果分析者在原数据中除掉最小的特征值所对应 的成分,那么所得的低维度数据必定是最优化的,也就是,这样降 维必定是失去讯息最少的方法。 史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日2/28 具体例子 为了评价企业的经济效益,选用了8个指标作为经济效益评价 的指标体系: x1固定资产利税率,X2资金利税率,x3销售收入利税率,x4 资金利润率,x5固定资产产值率,x6流动资金周转天数,x7万元 产值能耗,x8全员劳动生产率. 其中指标x1;x2;x3;x4;x5;x8是正向指标,它们的取值越大越 好,而指标X6;x7是反向指标,它们的数值越大反而越不好,这时采 用它们的倒数.下表是15家企业的8项指标的数据: 史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日3/28 x1x2x3x4x5x6x7x8 116.6827.7531.8418.4053.255528.831.75 219.7027.5632.9419.2059.825532.922.87 315.2023.4032.9816.2446.786541.691.53 47.258.9721.304.7634.396239.281.63 529.4556.4940.7443.6875.326926.682.14 632.9342.7849.9833.8766.465032.872.60 725.3937.8536.7627.5668.186335.792.43 815.0519.4927.2114.2156.137635.761.75 史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日4/28 x1x2x3x4x5x6x7x8 919.8228.7833.4120.1759.257139.131.83 1021.1335.2039.1626.5252.476235.081.73 1116.7528.7229.6219.2355.765830.081.52 1215.8328.0326.4017.4361.196132.754.60 1316.5329.7332.4920.6350.416937.571.31 1422.2454.5931.0537.0067.956332.331.57 1512.9220.8225.1212.5451.076639.181.83 史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日5/28 这样关于这8个指标有15个样本观察值,将指标xi按照下面公 式进行标准化 xi−x¯i x~i=p; Si 其中 1515 1X1X x¯=x;S=(x−x¯)2 i15iji14iji j=1j=1 样本x~i,和x~2;的相关系数定义为 15 P (~xil−x¯i)(~xjl−x¯j) l=1(1) s15s15 P2P2 (~xil−x¯i)(~xjl−x¯j) l=1l=1 计算指标x~1;x~2;:::;x~8的相关系数矩阵为 史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日6/28 01 10:8490:9250:9020:8500:3250:4910:586 BC BC BC B10:6930:9880:8600:1170:6100:525C BC BC BC B10:7760:6150:3670:3490:522C BC BC BC B10:8560:1290:6070:317C BC BC BC B10:0990:6200:976C BC BC BC BC B10:2840:504C BC BC BC B10:194C BC @A 1 史会峰(华北电力大学)华北电力大学数学建模俱乐部2014年6月14日7/28 计算相关系数矩阵的特征值,并按照从大到小次序排列得,前 三个特征值之和就占总和8的91:17%,因此选用三个指标就可综 合8个指标的91:17%的信息,这三个