预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109192200A(43)申请公布日2019.01.11(21)申请号201810514662.9(22)申请日2018.05.25(71)申请人华侨大学地址361000福建省厦门市集美区集美大道668号(72)发明人范文涛杜吉祥符江鹏(74)专利代理机构厦门智慧呈睿知识产权代理事务所(普通合伙)35222代理人郭福利(51)Int.Cl.G10L15/14(2006.01)G10L25/24(2013.01)G10L25/27(2013.01)权利要求书3页说明书9页附图3页(54)发明名称一种语音识别方法(57)摘要本发明涉及一种语音识别方法,其包括所述语音识别方法包括输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;将提取的MFCC特征向量输入到狄利克雷分布混合模型中计算观测概率,其中使用变分推断更新优化模型参数;将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM,使用隐马尔科夫模型对语音信号时间序列结构进行建模;根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。本发明在现有高斯混合隐马尔科夫模型的方法基础上,提出使用狄利克雷混合模型来对隐马尔科夫混合模型的观测概率来进行建模,同时使用变分推断实现模型参数的求解,谋求模型鲁棒性和提高准确率。CN109192200ACN109192200A权利要求书1/3页1.一种语音识别方法,其特征在于,所述语音识别方法包括:步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数;步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模;步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。2.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量的步骤进一步包括:步骤S101:预加重所述语音信号,以补偿所述语音信号中受到压抑的高频部分;其具体包括s'n=sn-k*sn-1其中:S表示语音信号,Sn={s0,…,sN-1},n=0,…,n-1;S'表示处理之后的语音信号,Sn'={s'0,…,s'N-1},n=0,…N-1;k∈[0.9,1];步骤S102:使用汉明窗对所述语音信号进行加窗处理,用于平滑所述语音信号:其具体包括:步骤S103:将所述语音信号中的时域信号转换成频域信号,以进行频率分析;其中,幅度频:其中i表示第i帧,k表示傅里叶点数;功率谱:步骤S104:使用梅尔克度滤波组过滤经过频域信号;步骤S105:使用log非线性描述能量值;步骤S106:通过离散余弦变换获取频率普的低频信息;其中,步骤S107:通过差分增加语音信号的特征的时域连续性,其中,其中dt表示第t个一阶差分,ct表示第t个倒谱系数,θ表示一阶导数的时间间隔。步骤S108:倒谱均值归一化以获取语音信号的特征参数。3.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S200:将提取的MFCC特2CN109192200A权利要求书2/3页征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数的步骤进一步包括:狄利克雷混合模型模型式为:其中表示混合系数,是第j个混合分量的狄利克雷分布。4.根据权利要求1所述语音识别方法,其特征在于,所述步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:步骤S301:初始化分布参数,选择混合分量的数量,使用K-means算法初始化超参数{ujl}和{vjl}的值,其中,M为混合分量数,N为输入样本数量,表示伽马分布,Z表示M维二元随机变量。其中:注:<·>表示期望,Γ表示伽马函数。超参数更新迭代式如下:3CN109192200A权利要求书3/3页其中Ψ和Ψ'分别表示digamma函数和trigamma函数。5.根据权利要求4所述的语音识别方法,其特征在于,所述步骤S300:将所述MFCC特征向量和所述观测概率输入所述隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:步骤S302:变分推断求解模型参数;步骤S3进一步包括步骤S303:变分E步,更新Q(z)和计算其最大似然估计值;步骤S3进一步包括步骤S304:变分M步,最大化下界L(Q),求得的最大似然值来计算参数的值;步骤S3进一步包括步骤S305:重