预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

2007年第6期山东教育学院学报总第124期 主成分分析、因子分析、 聚类分析的比较与应用 李新蕊 (济南大学政治与公共管理学院,山东济南250022) 摘要:主成分分析、因子分析、聚类分析是三种比较有价值的多元统计方法,但同时也是在使用过程中容易误 用或混淆的几种方法。本文从基本思想、数据的标准化、应用上的优缺点等方面,详细地探讨了三者的异同,并且 举例说明了三者在实际问题中的应用。 关键词:主成分分析;因子分析;聚类分析 中图分类号:G441文献标识码:A文章编号:1008)2816(2007)06)0023)04 一、引言个变量(因子)来综合反映原始变量(因子)的主要 主成分分析就是将多项指标转化为少数几项信息,变量虽然较原始变量少,但所包含的信息量 综合指标,用综合指标来解释多变量的方差-协却占原始信息的85%以上,所以即使用少数的几 方差结构。综合指标即为主成分。所得出的少数个新变量,可信度也很高,也可以有效地解释问 几个主成分,要尽可能多地保留原始变量的信息,题。并且新的变量彼此间互不相关,消除了多重 且彼此不相关。因子分析是研究如何以最少的信共线性。这两种分析法得出的新变量,并不是原 息丢失,将众多原始变量浓缩成少数几个因子变始变量筛选后剩余的变量。在主成分分析中,最 量,以及如何使因子变量具有较强的可解释性的终确定的新变量是原始变量的线性组合,如原始 一种多元统计分析方法。聚类分析是依据实验数变量为x1,x2,...,x3,经过坐标变换,将原有的p 据本身所具有的定性或定量的特征来对大量的数个相关变量xi作线性变换,每个主成分都是由原 据进行分组归类以了解数据集的内在结构,并且有p个变量线性组合得到。在诸多主成分Zi中, 对每一个数据集进行描述的过程。其主要依据是Z1在方差中占的比重最大,说明它综合原有变量 聚到同一个数据集中的样本应该彼此相似,而属的能力最强,越往后主成分在方差中的比重也小, [1](34) 于不同组的样本应该足够不相似。综合原信息的能力越弱。因子分析是要利用少数 三种分析方法既有区别也有联系,本文力图几个公共因子去解释较多个要观测变量中存在的 将三者的异同进行比较,并举例说明三者在实际复杂关系,它不是对原始变量的重新组合,而是对 应用中的联系,以期为更好地利用这些高级统计原始变量进行分解,分解为公共因子与特殊因子 方法为研究所用有所裨益。两部分。公共因子是由所有变量共同具有的少数 二、基本思想的异同几个因子;特殊因子是每个原始变量独自具有的 (一)共同点因子。对新产生的主成分变量及因子变量计算其 主成分分析法和因子分析法都是用少数的几得分,就可以将主成分得分或因子得分代替原始 收稿日期:2007)10)23 作者简介:李新蕊(1982)),女,山东莱阳人,发展与教育心理学硕士研究生。 #24#李新蕊:主成分分析、因子分析、聚类分析的比较与应用2007年第6期 变量进行进一步的分析,因为主成分变量及因子构,这个基本结构称为公共因子。对于所研究的 变量比原始变量少了许多,所以起到了降维的作问题就可试图用最少个数的不可测的所谓公共因 用,为我们处理数据降低了难度[2](14-17)。子的线性函数与特殊因子之和来描述原来观测的 聚类分析的基本思想是:采用多变量的统计每一分量。通过因子分析得来的新变量是对每个 值,定量地确定相互之间的亲疏关系,考虑对象多原始变量进行内部剖析。因子分析不是对原始变 因素的联系和主导作用,按它们亲疏差异程度,归量的重新组合,而是对原始变量进行分解,分解为 入不同的分类中一元,使分类更具客观实际并能公共因子和特殊因子两部分。具体地说,就是要 反映事物的内在必然联系。也就是说,聚类分析找出某个问题中可直接测量的具有一定相关性的 是把研究对象视作多维空间中的许多点,并合理诸指标,如何受少数几个在专业中有意义、又不可 地分成若干类,因此它是一种根据变量域之间的直接测量到、且相对独立的因子支配的规律,从而 相似性而逐步归群成类的方法,它能客观地反映可用各指标的测定来间接确定各因子的状态。因 这些变量或区域之间的内在组合关系。[3](66)聚类子分析只能解释部分变异,主成分分析能解释所 分析是通过一个大的对称矩阵来探索相关关系的有变异。 一种数学分析方法,是多元统计分析方法,分析的聚类分析算法是给定m维空间R中的n个向 结果为群集。对向量聚类后,我们对数据的处理量,把每个向量归属到k个聚类中的某一个,使得 难度也自然降低,所以从某种意义上说,聚类分析每一个向量与其聚类中心的距离最小。聚类可以 也起到了降维的作用。[4](338)理解为:类内的相关性尽量大,类间相关性尽量 (二)不同之处小。聚类问题作为一种无指导的学习问题,目的 主成分分析是研究如何通过少数几个主