预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共79页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

聚类分析ClusterAnalysis什么是聚类分析?聚类分析的基本思想聚类分析无处不在聚类分析无处不在聚类分析无处不在聚类的应用领域例对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力、空间想象能力和语言理解能力。得分如下,选择合适的统计方法对应聘者进行分类。910 聚类分析根据一批样本的许多观测指标,按照一定的数学公式具体地计算一些样本或一些指标的相似程度,把相似的样本或指标归为一类,把不相似的归为一类。样本或变量间亲疏程度的测度设有n个样本单位,每个样本测得p项指标(变量),原始资料矩阵为: 定比变量的聚类统计量:距离统计量1.绝对距离(Block距离) 2.欧氏距离(Euclideandistance) 3.明考斯基距离(Minkowski) 4.兰氏距离 5.马氏距离 6.切比雪夫距离(Chebychev) 171.相关系数 2.夹角余弦 计数变量(Count)(离散变量)的聚类统计量二值(Binary)变量的聚类统计量聚类的类型聚类的类型层次聚类系统聚类法不仅需要度量个体与个体之间的距离,还要度量类与类之间的距离。类间距离被度量出来之后,距离最小的两个小类将首先被合并成为一类。由类间距离定义的不同产生了不同的系统聚类法。类间距离的度量方法最短距离法(NearestNeighbor)最长距离法(FurtherNeighbor)组间平均连接法(Between-grouplinkage)组内平均连接法(Within-grouplinkage)组内平均连接法(Within-groupLinkage) 重心法(Centroidclustering)重心距离:均值点的距离 中位数法(Medianclustering)离差平方和法(Ward’smethod)主要步骤3.计算聚类统计量 聚类统计量是根据变换以后的数据计算得到的一个新数据,它用于表明各样本或变量间的关系密切程度。常用的统计量有距离和相似系数两大类。4.聚类 主要涉及两个问题: (1)选择聚类的方法 (2)确定形成的类数5.聚类结果的解释和证实k-均值聚类K-meansClusterk-均值聚类K-meansCluster聚类分析终止的条件例子1:31个省区小康和现代化指数的聚类分析系统聚类Agglomerationschedule:输出聚类过程表 Proximitymatrix:输出各个体之间的距离矩阵 ClusterMembership:每个个体类别归属表Dendrogram:聚类树形图 Icicle:冰柱图4950515253如果分为3类输出各组的统计信息5657K均值聚类5960616263例子2:土壤样本聚类分析系统聚类66676869707172K均值聚类7475767778R型聚类的例子