预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第32卷第1期华中师范大学学报(自然科学版)Vol.32No.1 1998年3月JOURNALOFCENTRALCHINANORMALUNIVERSITY(Nat.Sci.)Mar.1998 连续型隐马尔可夫模型 (HMM)参数与语音识别3 李四信韦岗 (华南理工大学电子与通信工程系,广州510641) 摘要提出了一种新的连续型隐马尔可夫模型(HMM)的概率密度函数,并导出了一系列的参 数寻优迭代公式,与常用的概率密度函数相比,它的运算量较小,且不易产生计算时的上溢与下溢 问题,把它用于HMM语音识别,效果较好. 关键词连续型隐马尔可夫模型(HMM);特征矢量;观察矢量序列 中图分类号TN912.3 影响隐马尔可夫模型(HMM)语音识别率的原因是多方面的,其中,用有关资料中的特征 观察矢量的连续概率密度函数,如高斯型混合密度函数,容易产生计算值的上溢或下溢问题, 影响了识别率[1,3,5].本文针对此问题进行了讨论,提出了新的连续型隐马尔可夫模型(HMM) 的概率密度函数. 根据线性预测编码(LPC)分析,对每帧语音采样数据,按照“最小均方误差”准测,求得一 组最佳预测系数,由此组数据构成的矢量能较好地反映该帧语音信号的特征,同一个词,特定 人不同时刻的发音,其LPC最佳预测系数图形具有一定的相似性,可以认为,同一个词,特定 人不同时刻的发音,其同一特性的变化服从正态分布. 图1语音识别结构 设HMM的N个状态为{S0,S1,⋯,SN-1},初始状态概率分布为: P=[P0,P1,⋯,PN-1], 状态转移概率分布为A=(aij),其中Pi为起始时刻取第i状态的概率,aij为由第i状态转移到 第j状态的概率,在Si状态下输出特征矢量o的概率服从正态分布,对M个待识别的语音,每 收稿日期:1997204203.第一作者:男,34岁,讲师. 3国家自然科学基金、国家教育委员会博士点基金、广东省自然科学基金资助课题. ©1994-2007ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net 44华中师范大学学报(自然科学版)第32卷 一个都建立一个HMM模型参数K(i)(i=0,1,2,⋯,M-1),有关详细内容见文献[2].本文使 用的模型识别原理如图1. 1HMM概率密度函数的选择与迭代计算公式的推导 取信号采样率为8kHz,8Bit量化,取得语音信号数据序列,加汉明窗: 0.54-0.46cos(2Pnö191),n=0,1,2,⋯,191, w(n)= 0,n为其它数时, 取24ms为一帧,共192个样本点,对它进行 三分划分,取中间64个样本点,帧移为8ms, 帧重叠为64个样本点,对中间64个样本点求 16维的自相关矢量,并进行整体归一化处理, 再求12维的LPC倒谱系数矢量,构成特征矢 量序列{ot}.设在第i状态下输出矢量o的概 率密度函数服从方差为单位阵的正态分布: 1 pi(o)=× (2P)Dö2 1 exp-(o-Li)(o-Li)′, 2õ 图2汉明窗 其中Li为矢量o的加权中值矢量,D为观察 矢量o的维数,“′”为矢量o-Li的转置.于是连续HMM的参数为:K=(P,A,Li).如果表征语 音信号的特征矢量序列为o=(o0,o1,⋯,oT-1),记q=q0q1⋯qT-1为N个状态{S0,S1,⋯,SN-1} 的可重复排列,那么,在K下产生特征矢量序列O的概率为: ()qqq⋯qqq(0)q(1)⋯q(T-1) pOûK=∑P0a01aT-2T-1p0op1opT-1o q T-1 11 qqq⋯qq(iq)(iq)′ =-DTö2∑P0a01aT-2T-1exp-∑o-Liõo-Li. (2P)q2i=0 上式中,T一般取值在35至85之间,D一般取值在8至16之间,而和式中每一项的乘积因子 都小于1,上式的第一个因子是一个接近于0.0的数,由此可见,此因子很容易引起概率值的 下限溢出. 为了防止下溢,记 p3(OûK)=(2P)DTö2p(OûK), 于是,求P(OûK)的极大值就转化为求p3(OûK)的极大值.为了简化起见,仍把p3(OûK)记为 p(OûK),并且,把上面的概率密度函数改写成: 1 pi(o)=exp-(o-Li)(o-Li)′, 2õ 可以证明,这样处理,除了概率值放大(2P)DTö2倍以外,HMM参数K保持不变,限于篇幅略去 其证明,于是有: T-1 1 ()qqq⋯qq(iq)(iq)′ pOûK=∑P0a01aT-2T-1exp-∑o-Liõo-Li. q2i=0 记 ©1994-2007ChinaAcademicJo