预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共47页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

特征选择与特征提取5.1基本概念5.2类别可分性测度5.3基于类内散布矩阵的单类模式特征提取5.4基于K-L变换的多类模式特征提取5.1基本概念(1)具有很大的识别信息量。即应具有很好的可分性。(2)具有可靠性。模棱两可、似是而非、时是时非等不易判别的特征应丢掉。(3)尽可能强的独立性。重复的、相关性强的特征只选一个。(4)数量尽量少,同时损失的信息尽量小。(c)是具有分类能力的特征,故选(c),扔掉(a)、(b)。[法2]:①特征抽取:测量物体向两个坐标轴的投影值,则A、B各有2个值域区间。可以看出,两个物体的投影有重叠,直接使用投影值无法将两者区分开。5.2类别可分性测度特征选择和提取的结果应使类内散布矩阵的迹愈?愈好。类间散布矩阵的迹愈大愈有利于分类。3.多类模式向量间的距离和总体散布矩阵(5-8)得4)多类模式平均平方距离与总体散布矩阵的关系距离与散布矩阵作为可分性测度的特点:*计算方便,概念直观(反映模式的空间分布情况);*与分类错误率没有直接的联系。对不同的X,似然函数不同,对数似然比体现的可分性不同,通常采用平均可分性信息——对数似然比的期望值。散度表示了区分ωi类和ωj类的总的平均信息。(3)错误率分析中,两类概率密度曲线交叠越少,错误率越小。据此可估计每一个特征在分类中的重要性:散度较大的特征含有较大的可分信息——保留。——两类模式之间马氏距离的平方5.3基于类内散布矩阵的单类模式特征提取讨论内容:*根据类内散布矩阵如何确定变换矩阵A;*通过A如何进行特征提取。——n个特征向量相互正交,且都是单位长度。(1)(3)变换后的类内距离2.特征提取的方法第四步:利用A对样本集{X}进行变换。由5.4基于K-L变换的多类模式特征提取1.K-L展开式由两边左乘得。K-L变换方法:2.利用自相关矩阵的K-L变换进行特征提取3.不同散布矩阵的K-L变换适用于类间距离比类内距离大得多的多类问题,选择与大特征值对应的特征向量组成变换矩阵。2)变换后的新模式向量各分量相对总体均值的方差等于原样本集总体自相关矩阵的大特征值,表明变换突出了模式类之间的差异性。3)计算矩阵的本征值和本征向量缺乏统一的快速算法,给计算带来困难。多类类内散布矩阵Sw2.散度准则5.5.2特征选择的方法使用条件:例:从5个特征中选出2个特征作为模式向量。2.次优搜索算法结束