预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共109页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学8.1.1聚类分析的一般概念 设有n个样品(多元观测值),每个样品测得m项指标(变量),得到观测数据xij(i=1,…,n;j=1,…,m),如表所示。 表8-1中数据又称为观测数据阵或简称为数据阵,其数学表示为: 其中列向量Xj=(x1j,x2j,…,xnj)',表示第j项指标(j=1,2,…,m),行向量X(i)=(xi1,xi2,…,xin)表示第i个样品。1.两种聚类分析 根据分类对象的不同,聚类分析分为两种: (1)样品聚类:样品聚类是对样品(观测)进行的分类处理,又称为Q型分类,相当于对观测数据阵按行分类。 (2)变量聚类:变量聚类是对变量(指标)进行的分类处理,又称为R型分类,相当于对观测数据阵按列分类。 两种聚类在形式上是对称的,处理方法也是相似的。2.聚类分析的方法 聚类方法大致可归纳如下: (1)系统聚类法(谱系聚类) 先将l个元素(样品或变量)看成l类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到l–1类,再从中找出最接近的2类加以合并变成了l–2类,如此下去,最后所有的元素全聚在一类之中。 (2)分解法(最优分割法) 其程序与系统聚类相反。首先所有的元素均在一类,然后按照某种最优准则将它分成2类、3类,如此下去,一直分裂到所需的k类为止。(3)动态聚类法(逐步聚类法) 开始将l个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整为止。 (4)有序样品的聚类 n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。 其他还有:有重叠聚类、模糊聚类、图论聚类等方法。3.聚类统计量 聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数两类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如马氏距离、明考斯基距离、兰氏距离、切比雪夫距离以及常见的欧氏距离: 等。相似系数有相关系数、夹角余弦、列联系数等。当然,采用不同的分类方法会得到不同的分类结果,有时即使是同一种聚类方法,因距离的定义方法不同也会得到不同的分类结果。对任何观测数据都没有唯一“正确的”分类方法。实际应用中,常采用不同的分类方法对数据进行分类,可以提出多种分类意见,由实际工作者决定所需要的分类数和分类情况。8.1.2系统聚类法的基本思想和步骤 下面以样品聚类为例介绍系统聚类法。 1.系统聚类法的基本思想 设有n个样品,每个样品测得m项指标(见表8-1)。系统聚类方法的基本思想是:首先定义样品间的距离(或相似系数)和类与类之间的距离。一开始将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他类的类间距离,再按最小距离准则并类。这样每次减少一类,直到所有的样品都并成一类为止。这个并类过程可以用谱系聚类图形象地表达出来。2.系统聚类法的基本步骤 (1)数据变换 为了便于比较或消除量纲的影响,在作聚类之前常常首先要对数据进行变换。变换的方法有中心化变换、标准化变换、极差标准化变换、极差正规化变换、对数变换等。 最常用的标准化变换为: 其中,,j=1,2,…,m。 变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据{}与变量的量纲无关。(2)计算n个样品两两间的距离 选择度量样品间距离的定义,计算n个样品两两间的距离,得样品间的距离矩阵D(0)。 (3)聚类过程 首先n个样品各自构成一类,类的个数k=n:Gi={X(i)}(i=1,…,n),此时类间的距离就是样品间的距离(即D(1)=D(0))。 令j=2,…,n,执行如下并类过程: 1)合并类间距离最小的两类为一新类(类间距离参见下文“系统聚类分析的方法”)。此时类的总个数k减少1类,即k=n–j+1;2)计算新类与其他类的距离,得新的距离矩阵D(j))。 若合并后类的总个数k仍大于1,重复1)和2)步,直到类的总个数为1时止。 (4)画谱系聚类图 谱系图能明确清晰地描述各个样本点在不同层次上聚合分类的情况。 (5)决定分类的个数及各类的成员3.系统聚类分析的方法 设有原始数据阵,如表8-1所示。G为在某一聚类水平上的类的个数,Ck是当前(水平G)的第k类,nk为Ck中的样品个数,DKL为第G水平的类CK和类CL之间的距离。 根据类间距离计算方法的不同,有11种不同的聚类方法: (1)类平均法 类平均法(AverageLinkage)用两类样品两两观测间距离的平均作为类间距离,即 类平均法是一种应用较广泛,聚类效果较好的方法。(2)重心法 重心法(CentroidMethod)用两个类重心(均值)之间的(平方)欧氏距离定