预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共66页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第4章聚类分析(clusteranalysis)统计方法(聚类分析):统计方法(系统聚类分析步骤):系统聚类分析:系统聚类分析用到的函数:聚类分析7聚类分析有两种:一种是对样品的分类,称为Q型,另一种是对变量(指标)的分类,称为R型。4.1样品(变量)间相近性度量4.1.1聚类分析的基本思想设有n个样品的p元观测数据组成一个数据矩阵4.1.2样品间的相似度量—距离7.兰氏距离例1.为了研究辽宁、浙江、河南、甘肃、青海5省1991年城镇居民生活消费规律,需要利用调查资料对五个省进行分类,指标变量共8个,意义如下:x1:人均粮食支出,x2:人均副食支出;x3:人均烟酒茶支出,x4:人均其他副食支出,x5:人均衣着商品支出,x6:人均日用品支出,x7:人均燃料支出,x8人均非商品支出计算各省之间的欧氏、绝对、明氏距离S=0000011.6726000013.805424.635300013.127824.05912.20330012.798323.53893.50372.21590序号类别类别4.1.3变量间的相似度量——相似系数①夹角余弦两变量的夹角余弦定义为:②相关系数两变量的相关系数定义为:例3.计算例1中各指标之间的相关系数与夹角余弦4.2谱系聚类法谱系聚类法是目前应用较为广泛的一种聚类法。谱系聚类是根据生物分类学的思想对研究对象进行分类的方法。在生物分类学中,分类的单位是:门、纲、目、科、属、种。其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。利用这种思想,谱系聚类首先将各样品自成一类,然后把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。4.2.1类间距离最短距离(NearestNeighbor)(3)类平均距离4.2.2类间距离的递推公式证明:上式第二行合并同类项,得1.选择样本间距离的定义及类间距离的定义;2.计算n个样本两两之间的距离,得到距离矩阵3.构造个类,每类只含有一个样本;4.合并符合类间距离定义要求的两类为一个新类;5.计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4;6.画出聚类图;7.决定类的个数和类。系统聚类分析的方法(1)n个样品开始作为n个类,计算两两之间的距离或相似系数,得到实对称矩阵(3)从D1出发重复步骤(2)的做法得到D2,再由D2出发重复上述步骤,直到所有样品聚为一个大类为止。将计算结果作为第一列,从D0中去掉第3、4行与3、4列,剩余元素作为其余各列得到D1将计算结果作为第一列,从D1中划掉{3,4}与{5}所在的行与列,剩余元素作为其他列得图1最短距离聚类图例将每一个省区视为一个样品,先计算5个省区之间的欧式距离,用D0表示距离矩阵(对称阵,故给出下三角阵)因此将3.4合并为一类,为类6,替代了3、4两类类6与剩余的1、2、5之间的距离分别为:d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21得到新矩阵合并类6和类5,得到新类7类7与剩余的1、2之间的距离分别为:d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54得到新矩阵合并类1和类2,得到新类8此时,我们有两个不同的类:类7和类8。它们的最近距离d(7,8)=min(d71,d72)=min(12.80,23.54)=12.80得到矩阵最后合并为一个大类。这就是按最短距离定义类间距离的系统聚类方法。最长距离法类似!4.2.4谱系聚类的MATLAB实现:注意:以上命令输出的结果是一个行向量,如果要得到距离矩阵,可以用命令:D=squareform(d),若得到三角阵,可以用