预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第四章判别分析距离判别只要求知道总体的特征量(即参数)---均值和协差阵,不涉及总体的分布类型.当参数未知时,就用样本均值和样本协差阵来估计.距离判别方法简单,结论明确,是很实用的方法.但该方法也有缺点:1.该判别法与各总体出现的机会大小(先验概率)完全无关;2.判别方法没有考虑错判造成的损失,这是不合理的.Bayes判别法正是为解决这两方面问题而提出的判别方法.Bayes的统计思想总是假定对所研究的对象已有一定的认识,常用先验概率分布来描述这种认识.然后我们抽取一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布.各种统计推断都通过后验概率分布来进行.将贝叶斯思想用于判别分析就得到贝叶斯判别法.在正态总体的假设下,按Bayes判别的思想,在错判造成的损失认为相等情况下得到的判别函数其实就是马氏距离判别在考虑先验概率及协差阵不等情况下的推广.所谓判别方法,就是给出空间Rm的一种划分:D={D1,D2,…,Dk}.一种划分对应一种判别方法,不同的划分就是不同的判别方法.Bayes判别法也是给出空间Rm的一种划分.设有k个总体G1,G2,…,Gk.假设事先对所研究的问题有一定的认识,这种认识常用先验概率来描述.即已知这k个总体各自出现的概率(验前概率)为q1,q2,…,qk(显然qi0,q1+q2+…+qk=1).比如研究人群中得癌(G1)和没有得癌(G2)两类群体的问题,由长期经验知:q1=0.001,q2=0.999.这组验前概率q1,…,qk称为先验概率.先验概率是一种权重(比例).所谓“先验”是指先于我们抽取样品作判别分析之前.Bayes判别准则要求给出qi(i=1,2,…,k)的值.qi的赋值方法有以下几种:(a)利用历史资料及经验进行估计.例如某地区成年人中得癌症的概率为P(癌)=0.001=q1,而P(无癌)=0.999=q2.(b)利用训练样本中各类样品占的比例ni/n做为qi的值,即qi=ni/n(i=1,…,k),其中ni是第i类总体的样品个数,而n=n1+n2+…+nk.这时要求训练样本是通过随机抽样得到的,各类的样品被抽到的机会大小就是验前概率.(c)假定q1=q2=…=qk=1/k.§4.3.1贝叶斯准则判别方法是,先由贝叶斯准则计算待判样品来自个总体的条件概率(也称后验概率)为(4.18)式中,——归入第总体的先验概率,时为。问题:待判样品X属于哪一类??不妨设,则待判样品就归入第类总体。因此式(4.19)称为判别函数,按照条件概率最大进行归类的准则,称为贝叶斯判别准则。在式(4.19)中,为了给出判别函数的具体表达式,下面以服从多元正态分布情况来讨论。设是第类总体第个样品第个变量的观测值,且各总体样品都是相互独立的正态随机向量,即在该假设条件下,由于均未知,为此我们可根据第总体的样品数据,计算出总体的样本均值及总体样本的协方差矩阵,用作为总体的估计。由统计理论知,式中,——第类总体样品均值向量。——总体第个变量均值()——称为总体组内方差—协方差矩阵,式中,此时,均为已知,总体的密度函数可表为这里,为矩阵的逆矩阵的行列式。上式表明是一个具体已确定的函数。下面的问题是要确定式(4.19)中的先验概率,对于的确定,实际应用中常用其频率来估计,即。由此式(4.19)完全确定,于是可以进行判别归类,为了计算方便,我们对式(4.19)进行化简,即对式(4.19)取对数,对式中的同类项合并,去掉与分组无关的项。并令故上式可写成(4.20)令式中,这里为矩阵中的元素。于是最终得化简后的类总体的判别函数为()(4.21)§4.3.2判别效果的检验§4.3.3待判样品的归类§4.3.4线性判别分析计算程序§4.3.5应用综合实例气体