预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(完整word)判别分析及聚类分析(完整word)判别分析及聚类分析(完整word)判别分析及聚类分析判别分析(DiscriminantAnalysis)一、概述:判别问题又称识别问题,或者归类问题。判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?同一类别的个体之间距离小,不同总体的样本之间距离大。距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距绝对距离马氏距离:(Manhattandistance)设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为,协方差阵为的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为,类似地可以定义个体X与总体(类别)A的距离为明考斯基距离(Minkowskidistance):明科夫斯基距离欧几里德距离(欧氏距离)二、Fisher两类判别一、训练样本的测量值A类训练样本编号12均数B类训练样本编号12均数二、建立判别函数(DiscriminantAnalysisFunction)为:其中:、和为判别系数(DiscriminantCoefficient)可解如下方程组得判别系数。各类的离差阵分别以、表示类内离差阵为、之和三、Y值的判别界值将、、、代入判别函数,得到相应的,将、、、代入判别函数,得到相应的,两类的判别界值为:当两类的样本含量相差较多时应加权,用下式计算判别界值将每个个体的、、、代入判别函数计算,根据判别界值判别归类。四、对判别函数检验为训练样本中两类和在一起的离差阵(注意与的区别)计算Wilks统计量,,五、回代观察判别函数的判别效果举例设要建立一个判别函数来判别医院的工作情况,公认的A类医院11所,B类医院9所。X1:床位使用率X2:治愈率X3:诊断指数判别指标如下两表:A类医院编号X1X2X3Y198。8285。4993。187.9839285。3779。1099.657。9879386.6480.6496。947.9391473。0886。8298.708.1008578.7380。4497。617。88366103。4480.4093.757。8807791。9980。7793。937.8161887.5082。5094.107。3665981.8288.4597。908。18021073.1682。9492.127。65921186。1983。5593.307.8919均数89.337382。827394。70737.8781B类医院编号X1X2X3Y172.4878.1282。387。0300258。8186。2073。466.7616372。4884.8774。096.8505490.5682.0777。157。0413573。7366.6393。987.2244672.7987.5977。157.0550774.2793.9185.546。7346893。6285.8979。807.3152978。6977.0186。797。2522均数76。381179。143381.14897.0331合计均数81。85781.17088。6061.计算各类中的变量值均数2.计算各类的离差阵及两类的离差阵之和3.=86。3376—76。3811=9.9562=82.8273-79。1433=3.6840=94。7073-81.1489=13.55844.解此方程组得=0.007440=0.032412=0。048055判别函数为5.求=7.8781=7.0331=7。4556=7.49786.检验==0.192944=22.3085、为相应矩阵的行列式的值7.回代(internalvalidation)判别效果原分类判别函数的判别归类ABA101B00A正确率=90。9%B正确率=100%总正确率(符合率)=91%A误判