预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共61页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

会计学特征选择和提取的任务是如何从许多特征中找出那些最有效的特征,把高维特征空间压缩到低维特征空间。特征的种类有物理的、结构的、数学的。物理的、结构的特征,人的感觉器官容易感受,数学的特征,如均值、相关系数、协方差矩阵的特征值和特征向量等。物理和结构特征和所处理的具体问题有关,在解决实际问题时可以依据具体问题而定。这一节研究一般的特征提取和选择的方法。2.几个术语的含义模式特征的产生过程一般包括以下步骤:1.原始特征的形成:用仪表或传感器测量出来的一些特征量,或通过计算得到的一些特征(对波形和图象),称为原始特征、原始测量或一次特征。 2.特征提取:原始特征的数量可能很大,需要通过变换(映射)把高维特征空间降到低维空间,这时的特征叫二次特征,它们一般是原始特征的某种组合。 通过变换A:XY,测量空间特征空间需要尽可能多地保留对分类和表示有利的信息。 好处:减少计算量;在样本少时,便于估计密度函数;提高分类器设计的性能。 3.特征选择:从得到的一组特征中,挑选最有效的特征以进一步减少特征空间的维数,得到它的一个有效子集。 特征的提取和选择是人类的一项基本智能活动,从相关和不相关信息中找出主要因素。例如在细胞识别中,用变换的方法→较少的特征,用选择的方法→专家意见,或用数学方法进行筛选,从n个→m个。但“提取”和“选择”不是截然分开的。具体指什么要从上下文去理解。特征选择时,前m个最好的不一定组合后也是最好的。 特征提取可以看作是在减少维数的同时,又能代表、表示原观测向量。 模式识别的任务是判别、分类。维数减少、一般错误率要增加,要限制在一定范围内。7.2基于特征向量分析的特征提取方法1.模式最优表示特征的提取写成矩阵形式,=Umy(n×m,m×1)→n×1y=UmTx(m×n,n×1)→m×1其中:y1↑↑↑y=Um=u1u2…umym↓↓↓ 由于{uj,j=1,2,…,n}是标准正交基,用表示x时的误差(残差)为 ε=x-= 其中,yj=ujTx,j>m 问题是找一组基{uj},使得均方误差ε=E[|ε|2]=E[|x-|2]最小。 这时的yi就是从x导出的特征,而y=umTx就表示特征变换(由n维→m维)。根据误差公式和基是标准正交的条件, ε=E[εTε]=E[()()]=如果把yj2写成 yj2=(yj)·(yj)=(ujTx)(xTuj) 则E[yj2]=ujTE[xxT]uj=ujTRuj,其中R是自相关矩阵 ε=要找一组基,使ε最小,同时要满足: ujTuj=1,j=m+1,…,n. 把约束ujTuj=1用拉格朗日乘子(法)写入误差中,有 ε’=+ =2(Ruj-uj)=0,j=m+1,…,n 上式说明uj必须是R的特征向量。 (Re=λe) 这样,ε=== ∴为了使ε最小,特征向量um+1,…,un必须是对应最小特征值的,而近似x时所用的m个特征向量是对应m个最大特征值的。 上面推导出的特征还有其它意义上的最优性质。 一个分布的熵定义为H=-E[㏑p(y)]粗略地说,当分布很平、延伸很广时,熵最大。如果x是零均值的高斯分布,那么可以证明所选择的特征向量具有最大熵。 这些特征向量沿最大方差方向,这样的方向是最随机的,最不确定的,这些方向应保留下来作为特征。对最不确定的事,若有信息(测量),最有用。 例三维观测向量的特征提取有一三维观测向量,其相关矩阵为 3-10 R=-130003 它的特征值和特征向量为 λ1=4,λ2=3,λ3=2 1/01/e1=-1/e2=0e3=1/010 要选一个特征,应选e1方向,均方误差是λ2+λ3=5, 要选两个特征,应选e1、e2方向,均方误差是λ3=2.表示模式的特征和用于分类的特征的不同(1)均值大小的影响 若均值较大,均值就会起大作用,特征在均值方向。 当两类问题的均值相差较大时,可以分类;但若均值差不多,则不会有好的效果。 (2)也可以使用协方差矩阵,以均值为参考点,相对于均值。(3)最好的表示特征不一定是最好的分类特征。 (3)有时可将坐标系移到一个类的均值处,这时相关矩阵的最大特征值的特征向量将沿两个均值的方向排列。*7.3多类问题的特征提取1.两类时的情况 其中 ↑↑↑1/ S=v1v2…vn1/↓↓↓…1/ vi和ui分别为Q的特征向量和特征值。 一般地说,S并不把R1和R2对角化,但通过S的线性变换,它把观测向量x变为:x’=STx 变换后的相关矩阵为 Ri’=STRiS 由(*)式有R1’+R2’=I(**)现在考虑在变换后新坐标系下的特征。首先,注意到R1’和R2’的特征向量是相同的。 ∵假设e是R1’的一个特征向量,相应的特征值是λ, 由(**)式:R2’e=(I-R1’)e=e-λe=(1-λ)e ∴e也是R2’的特征向量,相应的特