预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

EM算法在高斯混合模型中的应用 1.定义 对于一个随机信号生成器,假设他的模型参数为,我们能观测到的数据输出为X,不能观测到的数据输出为Y,且随机系统模型结构的概率密度函数为 (1) 能够观测到的一部分数据输出数据,模型的另一部分输出数据未知,模型的参数也未知。EM算法就是要求我们从观测数据中估计出参数。 2.EM算法的描述 假设每一对随机系统的输出样本对于不同的n相互独立,这样当,x和y都已知的情况下,概率也已知。未观测的输出y的概率分布也属于待求参数。 根据独立性假设有: (2) 3.EM算法的基本思路 基本问题是求解下面的方程的解: (3) 由于X是确定量,Y是未知的,因此即使给定了,也无法求得的值,因此我们只能退一步求: (4) 其中 (5) 表示考虑了未知数据y的所有可能的取值Y后对求平均值。 最后根据log函数的单调性得到(4)的等效形式: (6) 对于(6)给出的最优化问题,考虑用下面的递推算法解决,即:先给定一个估值并计算,然后更新得到并且有 (7) (8) 其中,等号在时成立,即: (9) 于是对的递推算法(7)可通过进行,步骤为: 令k=0,先给出估值 然后找出满足(10) k更新为k+1并返回步骤2)直到收敛 令(11) 处理后 (12) 其中 (13) 4.EM算法与高斯混合模型 在随机系统模型中,假设是通道的随机信号生成器的概率密度函数的参数,是选中通道的概率。记为。 假设个随机信号生成器和通道选择随机生成器是相互独立的,从通道输出的数据的概率是: (14) 不考虑通信信息,输出的概率为: (15) 其中: :是第个通道随机信号生成器的参数。 :参数集合。 观测数据为一批随机产生的输出信号,并且每个输出都是相互独立的,而每个输出来自哪个通道不可测。于是系统模型参数估计问题就变为通过有限的输出样本估计个通道参数. 应用(12)求解,其中可以简化为: (16) 其中: 这样我们把和分别放在两项里面,他们不相关,可以独立考虑。 在中应用约束条件: 用拉格朗日乘子优化得到: 上式的含义是,选中号通道的概率估计是每个观测数据来自于通道的条件概率(根据上一次估值估算)的平均。其中的通过下式得出。 中的的优化取决于分布函数的类型,对于为高斯分布时, 其中是分布的均值,是方差。再经过推导,有: ① ,② ③ 通道参数得更新可以看作是对的加权,加权系数可以看成是根据上一次的参数估计算出来得率属于通道的概率。 最后,上面的EM算法可能收敛到局部极大点,因此需要选择多个参数的初始值进行迭代计算,并选择使得最大的解,最大的解可由下式算出: 5.EM算法在matlab中的实现 利用上面推导出的公式①②③,我们以二个一维的高斯分布(,)来验证EM算法的性能,首先用二个一维的高斯分布来建立一个高斯混合模型。 假设: , 其中与为混合系数,且有,我们要用EM算法估计混合系数和各一维高斯分布的均值和方差。并将利用EM算法估计出的值与真实值做比较,就可以得到该算法的性能。 首先我们取的真实值为(0.4,0.6,1,2,0.25,0.36) 这样我们得到一个混合高斯分布,他的密度函数为,然后产生1000个服从的分布的观测样本点。接下来要做的就是对这1000个样本点用EM算法进行处理,来估计出一组的值。 在使用EM算法时,要首先给设定一组初值 这里假设初值为=0.3,=0.7,0.8,1.8,0.2,0.25 Matlab具体程序如下: Y=zeros(1,10000); fori=1:10000 ifrand(1)>0.3 Y(i)=normrnd(2,sqrt(0.36),1,1); else Y(i)=normrnd(1,sqrt(0.25),1,1); end end%高斯混合模型 A=[0.30.7];%设置参数的初值 M=[0.81.8];%设置均值的初值 S=[0.20.25];%设置方差的初值 forn=1:1000 forj=1:2 a3=0; a4=0; a5=0; fork=1:10000 a1=0; fort=1:2 a1=A(t)*1/sqrt(2*pi*S(t))*exp(-(Y(k)-M(t))^2/(2*S(t)))+a1; end f=A(j)*1/sqrt(2*pi*S(j))*exp(-(Y(k)-M(j))^2/(2*S(j))); a2=f/a1; a3=a2+a3;%a3对应公式 a4=a2*Y(k)+a4;%a4对应公式 a5=a2*(Y(k)-M(j))^2+a5;%a5对应公式 end A(j)=a3/10000;%循环更新系数值 M(j)=a4/a3;%循环更新均值值 S(j)=a5/a3;%循环更新方差值 end end 运行程序,查看变量A,M,S的值