预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第二节模糊聚类分析方法在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。一、模糊聚类分析的一般步骤1、第一步:数据标准化[9](1)数据矩阵设论域为被分类对象,每个对象又有个指标表示其性状,即,于是,得到原始数据矩阵为。其中表示第个分类对象的第个指标的原始数据。(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间上。通常有以下几种变换:①平移·标准差变换其中,。经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但是,再用得到的还不一定在区间上。②平移·极差变换,显然有,而且也消除了量纲的影响。③对数变换取对数以缩小变量间的数量级。2、第二步:标定(建立模糊相似矩阵)设论域,,依照传统聚类方法确定相似系数,建立模糊相似矩阵,与的相似程度。确定的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。(1)相似系数法①夹角余弦法。②最大最小法。③算术平均最小法。④几何平均最小法。以上3种方法中要求,否则也要做适当变换。⑤数量积法,其中。⑥相关系数法,其中,。⑦指数相似系数法,其中,而。(2)距离法①直接距离法,其中为适当选取的参数,使得,表示他们之间的距离。经常用的距离有●海明距离。●欧几里得距离。●切比雪夫距离。②倒数距离法。其中为适当选取的参数,使得。③指数距离法。3、第三步:聚类(求动态聚类图)(1)基于模糊等价矩阵聚类方法①传递闭包法根据标定所得的模糊矩阵还要将其改造称模糊等价矩阵。用二次方法求的传递闭包,即=。再让由大变小,就可形成动态聚类图。②布尔矩阵法[10]布尔矩阵法的理论依据是下面的定理:定理2.2.1设是上的一个相似的布尔矩阵,则具有传递性(当是等价布尔矩阵时)矩阵在任一排列下的矩阵都没有形如的特殊子矩阵。布尔矩阵法的具体步骤如下:①求模糊相似矩阵的截矩阵.②若按定理2.2.1判定为等价的,则由可得在水平上的分类,若判定为不等价,则在某一排列下有上述形式的特殊子矩阵,此时只要将其中特殊子矩阵的0一律改成1直到不再产生上述形式的子矩阵即可。如此得到的为等价矩阵。因此,由可得水平上的分类(2)直接聚类法所谓直接聚类法,是指在建立模糊相似矩阵之后,不去求传递闭包,也不用布尔矩阵法,而是直接从模糊相似矩阵出发求得聚类图。其步骤如下:①取(最大值),对每个作相似类,且=,即将满足的与放在一类,构成相似类。相似类与等价类的不同之处是,不同的相似类可能有公共元素,即可出现,,.此时只要将有公共元素的相似类合并,即可得水平上的等价分类。②取为次大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。③取为第三大值,从中直接找出相似度为的元素对(即),将对应于的等价分类中所在的类与所在的类合并,将所有的这些情况合并后,即得到对应于的等价分类。④以此类推,直到合并到成为一类为止。二、最佳阈值的确定在模糊聚类分析中对于各个不同的,可得到不同的分类,许多实际问题需要选择某个阈值,确定样本的一个具体分类,这就提出了如何确定阈值的问题。一般有以下两个方法:=1\*GB3①按实际需要,在动态聚类图中,调整的值以得到适当的分类,而不需要事先准确地估计好样本应分成几类。当然,也可由具有丰富经验的专家结合专业知识确定阈值,从而得出在水平上的等价分类=2\*GB3②用F统计量确定最佳值。[11]设论域为样本空间(样本总数为),而每个样本有个特征:,。于是得到原始数据矩阵,如下表所示,其中,称为总体样本的中心向量。样本指标12km设对应于值的分类数为,第类的样本数为,第类的样本记为:,第类的聚类中心为向量,其中为第个特征的平均值,即,,作统计量,其中为与间的距离,为第类中第个样本与其中心间的距离。称为统计量,它是遵从自由度为,的分布。它的分子表征类与类之间的距离,分母表征类内样本间的距离。因此,值越大,说明类与类之间的距离越大;类与类间的差异越大,分类就越好。基于模糊聚类分析的多属性决策方法的实际应用聚类分析是将事物根据一定的特征,并按某种特定要求或规律分类的方法。由于聚类分析的对象必定是尚未分类的群体,而且现实的分类问题往往带有模糊性,对带有模糊特征的事物