预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共66页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第4章聚类分析(clusteranalysis)统计(tǒngjì)方法(聚类分析):统计(tǒngjì)方法(系统聚类分析步骤):系统(xìtǒng)聚类分析:系统(xìtǒng)聚类分析用到的函数:聚类分析第七页,。聚类分析有两种:一种(yīzhǒnɡ)是对样品的分类,称为Q型,另一种(yīzhǒnɡ)是对变量(指标)的分类,称为R型。4.1样品(yàngpǐn)(变量)间相近性度量4.1.1聚类分析的基本思想设有n个样品的p元观测数据组成一个(yīɡè)数据矩阵4.1.2样品间的相似度量(dùliàng)—距离7.兰氏距离例1.为了研究辽宁、浙江、河南、甘肃、青海5省1991年城镇居民生活(shēnghuó)消费规律,需要利用调查资料对五个省进行分类,指标变量共8个,意义如下:x1:人均粮食支出,x2:人均副食支出;x3:人均烟酒茶支出,x4:人均其他副食支出,x5:人均衣着商品支出,x6:人均日用品支出,x7:人均燃料支出,x8人均非商品支出计算各省之间的欧氏、绝对(juéduì)、明氏距离S=0000011.6726000013.805424.635300013.127824.05912.20330012.798323.53893.50372.21590序号类别类别4.1.3变量间的相似(xiānɡsì)度量——相似(xiānɡsì)系数①夹角余弦(yúxián)两变量的夹角余弦(yúxián)定义为:②相关系数两变量(biànliàng)的相关系数定义为:例3.计算例1中各指标(zhǐbiāo)之间的相关系数与夹角余弦4.2谱系聚类法谱系聚类法是目前应用较为广泛的一种聚类法。谱系聚类是根据生物分类学的思想对研究对象进行分类的方法。在生物分类学中,分类的单位是:门、纲、目、科、属、种。其中种是分类的基本单位,分类单位越小,它所包含的生物就越少,生物之间的共同特征就越多。利用这种思想,谱系聚类首先将各样品自成一类,然后把最相似(距离最近或相似系数最大)的样品聚为小类,再将已聚合的小类按各类之间的相似性(用类间距离度量)进行再聚合,随着(suízhe)相似性的减弱,最后将一切子类都聚为一大类,从而得到一个按相似性大小聚结起来的一个谱系图。聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度(chéngdù)不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度(chéngdù)较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度(chéngdù)较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有样本(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后把整个分类系统画成一张谱系图,用它把所有样本(或指标)间的亲疏关系表示出来。这种方法是最常用的、最基本的一种,称为系统聚类分析。4.2.1类间距离(jùlí)最短距离(NearestNeighbor)(3)类平均(píngjūn)距离4.2.2类间距离(jùlí)的递推公式证明(zhèngmíng):上式第二行合并(hébìng)同类项,得1.选择样本间距离的定义及类间距离的定义;2.计算n个样本两两之间的距离,得到距离矩阵3.构造个类,每类只含有一个样本;4.合并符合类间距离定义要求(yāoqiú)的两类为一个新类;5.计算新类与当前各类的距离。若类的个数为1,则转到步骤6,否则回到步骤4;6.画出聚类图;7.决定类的个数和类。系统(xìtǒng)聚类分析的方法(1)n个样品开始作为n个类,计算两两之间的距离(jùlí)或相似系数,得到实对称矩阵(3)从D1出发重复步骤(2)的做法得到D2,再由D2出发重复上述(shàngshù)步骤,直到所有样品聚为一个大类为止。将计算结果作为第一列,从D0中去掉(qùdiào)第3、4行与3、4列,剩余元素作为其余各列得到D1将计算结果作为(zuòwéi)第一列,从D1中划掉{3,4}与{5}所在的行与列,剩余元素作为(zuòwéi)其他列得3快速(kuàisù)聚类法第三十二页,。8623最大,故认为(rènwéi)若样品之间采用欧氏距离,则类间距离以中间距离最好,如果我们要找到最理想的分类方法,可以对每一种样品之间的距离,都计算上述的复合相关系数,这样就可以找到最理想的样品距离与对应的类间距离。实际计算若从某步开始,连续两次分类一样,则分类完成.c2=setdiff(c1,t4);于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度(chéngdù)较大的样本(或指标)聚合为一类,把另外一些彼此之间相似程度(chéngdù)较大的样本(或指标)又聚合为另一类,关系密切的聚合到一个小