预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共70页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学15:32:58“物以类聚,人以群分”,科学研究在揭示对象特点及其相互作用的过程中,不惜花费时间和精力进行对象分类,以揭示其中相同和不相同的特征。 在心理学研究中,经常遇到的分类包括两种情况: 一是对研究样本或个案的分类,即根据每个个案的一系列观测指标,将那些在这些观测量方面表现相近的个案归为一类,将那些在这些观测量方面的表现很不相同的个案归为不同(bùtónɡ)类; 二是对观测量的分类,即将一系列的观测量归类合并为性质明显不同(bùtónɡ)的少数几个方面。“在生物、经济、社会(shèhuì)、人口等领域的研究中,存在着大量量化分类研究。例如: 在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。 在经济研究中,为了研究不同地区城镇居民生活中的收入和消费情况,往往需要划分不同的类型去研究。 在地质学中,为了研究矿物勘探,需要根据各种矿石的化学和物理性质和所含化学成分把它们归于不同的矿石类。 在人口学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。判别分析和聚类分析是两种不同目的的分类方法,它们所起的作用是不同的。 判别分析方法假定组(或类)已事先分好,判别新样品应归属哪一组,对组的事先划分有时(yǒushí)也可以通过聚类分析得到。 聚类分析方法是按样品(或变量)的数据特征,把相似的样品(或变量)倾向于分在同一类中,把不相似的样品(或变量)倾向于分在不同类中。8915:32:5815:32:581213141516171819202122232425 4.距离选择的原则 一般说来,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因(yuányīn),主要是由于不同的距离公式的侧重点和实际意义都有不同。因此我们在进行聚类分析时,应注意距离公式的选择。通常选择距离公式应注意遵循以下的基本原则: (1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。 (2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。 (3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个(yīɡè)比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。28采用该方法得到的结果比较简单易懂,对计算机的性能要求不高,因此应用也比较广泛。 快速聚类法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中,具体的算法至少包括(bāokuò)以下三个步骤: 1.将所有的样品分成K个初始类; 2.通过欧氏距离将某个样品划入离中心最近的类中,并对获得样品与失去样品的类,重新计算中心坐标; 3.重复步骤2,直到所有的样品都不能再分配时为止。【例5.3】假定(jiǎdìng)我们对A、B、C、D四个样品分别测量两个变量和得到结果见表5.9。 试将以上的样品聚成两类。 第一步:按要求取K=2,为了(wèile)实施均值法聚类,我们将这些样品随意分成两类,比如(A、B)和(C、D),然后计算这两个聚类的中心坐标,见表5.10所示。 第二步:计算某个样品到各类中心的欧氏平方距离,然后将该样品分配给最近的一类。对于样品有变动(biàndòng)的类,重新计算它们的中心坐标,为下一步聚类做准备。先计算A到两个类的平方距离: 由于A到(A、B)的距离小于到(C、D)的距离,因此A不用重新分配。计算B到两类的平方距离:由于B到(A、B)的距离大于到(C、D)的距离,因此B要分配给(C、D)类,得到新的聚类是(A)和(B、C、D)。更新(gēngxīn)中心坐标如表5.11所示。第三步:再次检查每个样品,以决定是否需要重新分类。计算各样品到各中心的距离平方,得结果见表5.12。 到现在为止(wéizhǐ),每个样品都已经分配给距离中心最近的类,因此聚类过程到此结束。最终得到K=2的聚类结果是A独自成一类,B、C、D聚成一类。353637383940414243444546474815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32:5815:32