预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

模糊聚类分析方法 聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物进行聚类分析,分类过程中不是仅仅考虑事物之间有无关系,而是考虑事物之间关系的深浅程度,显然用模糊数学的方法处理更为自然,因此称为模糊聚类分析。 一、模糊聚类分析的一般步骤 1、第一步:数据标准化[9] (1)数据矩阵 设论域为被分类对象,每个对象又有个指标表示其性状,即 , 于是,得到原始数据矩阵为 。 其中表示第个分类对象的第个指标的原始数据。 (2)数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上。通常有以下几种变换: ①平移·标准差变换 其中,。 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的还不一定在区间上。 ②平移·极差变换 , 显然有,而且也消除了量纲的影响。 ③对数变换 取对数以缩小变量间的数量级。 2、第二步:标定(建立模糊相似矩阵) 设论域,,依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度。确定的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。 (1)相似系数法 ①夹角余弦法 。 ②最大最小法 。 ③算术平均最小法 。 ④几何平均最小法 。 以上3种方法中要求,否则也要做适当变换。 ⑤数量积法 , 其中。 ⑥相关系数法 , 其中,。 ⑦指数相似系数法 , 其中, 而。 (2)距离法 ①直接距离法 , 其中为适当选取的参数,使得,表示他们之间的距离。经常用的距离有 海明距离 。 欧几里得距离 。 切比雪夫距离 。 ②倒数距离法 。 其中为适当选取的参数,使得。 ③指数距离法 。 3、第三步:聚类(求动态聚类图) (1)基于模糊等价矩阵聚类方法 ①传递闭包法 根据标定所得的模糊矩阵还要将其改造称模糊等价矩阵。用二次方法求的传递闭包,即=。再让由大变小,就可形成动态聚类图。 ②布尔矩阵法 布尔矩阵法的理论依据是下面的定理: 设是上的一个相似的布尔矩阵,则具有传递性(当是等价布尔矩阵时)矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。 布尔矩阵法的具体步骤如下: ①求模糊相似矩阵的截矩阵. ②若按定理2.2.1判定为等价的,则由可得在水平上的分类,若判定为不等价,则在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到的为等价矩阵。因此,由可得水平上的分类。 (2)直接聚类法 所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下: ①取(最大值),对每个作相似类,且 =, 即将满足的与放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现 ,,. 此时只要将有公共元素的相似类合并,即可得水平上的等价分类。 ②取为次大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。 ③取为第三大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。 ④以此类推,直到合并到成为一类为止。 (3)最大树法 所谓最大树法,就是画出以被分类元素为顶点,以相似矩阵R的元素为权重的一颗最大的树,取定,砍断权重低于的枝,得到一个不连通的图,各个连通的分支便构成了在水平上的分类。 下面介绍求最大树德克鲁克法 设,先画出所有顶点,从模糊相似矩阵R中按从大到小的顺序依次画枝,并标上权重,要求不产生圈,直到所有顶点连通为止,这就得到一颗最大树(最大树可以不唯一)。 二、最佳阈值的确定 在模糊聚类分析中对于各个不同的,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法: ①按实际需要,在动态聚类图中,调整的值以得绞实钡姆掷啵恍枰孪茸既返毓兰坪醚居Ψ殖杉咐唷5比唬部捎删哂蟹岣痪榈淖医岷献ㄒ抵度范ㄣ兄担佣贸鲈谒缴系牡燃鄯掷? ②用F统计量确定最佳值。[11] 设论域为样本空间(样本总数为),而每个样本有个特征:,。于是得到原始数据矩阵,如下表所