预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110070855A(43)申请公布日2019.07.30(21)申请号201810077556.9(22)申请日2018.01.23(71)申请人中国科学院声学研究所地址100190北京市海淀区北四环西路21号申请人北京中科信利技术有限公司(72)发明人张鹏远刘丹阳徐及颜永红(74)专利代理机构北京方安思达知识产权代理有限公司11472代理人陈琳琳杨青(51)Int.Cl.G10L15/02(2006.01)权利要求书3页说明书8页附图4页(54)发明名称一种基于迁移神经网络声学模型的语音识别系统及方法(57)摘要本发明涉及一种基于迁移神经网络声学模型的语音识别系统及方法,该系统包括:信号处理及特征提取模块、语言模型、解码器和迁移神经网络声学模型;其中迁移神经网络声学模型包括鲁棒神经网络和定向神经网络;本系统通过对鲁棒神经网络模型的模型参数进行固定,同时通过神经网络间的层间横向连接,将鲁棒声学模型的信息传递到目标声学模型中,不仅保留了原鲁棒声学模型的性能,同时还对目标语言做特定的优化。解决了低资源语言的鲁棒声学模型的快速构建的问题,通过利用数据充分的语言的声学模型进行模型参数迁移的方式,来提升目标低资源语言的声学模型性能以及训练的收敛速度。CN110070855ACN110070855A权利要求书1/3页1.一种基于迁移神经网络声学模型的语音识别系统,其特征在于,包括:信号处理及特征提取模块,用于对待识别的音频信号进行增强,将所述待识别的音频信号从时域转化到频域,并提取声学特征;声学模型,用于以提取的声学特征为输入,生成声学模型得分;所述声学模型为迁移神经网络声学模型,包括:前端的鲁棒神经网络声学模型和后端的定向神经网络声学模型;所述鲁棒神经网络声学模型作为一个所述定向神经网络声学模型的辅助模型,使用大量源语言数据进行训练;语言模型,用于估计通过重训练语料学习词之间的相互概率,输出语言模型得分;解码器,用于根据给定的待识别音频信号的特征向量序列、所述声学模型得分和所述语言模型得分,将总体输出分数较高的词序列作为识别结果。2.如权利要求1所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,所述迁移神经网络声学模型由下述步骤训练生成,包括:建立源语言训练集,根据源语言训练集训练源语言语音识别系统的鲁棒神经网络声学模型;将训练后的鲁棒神经网络声学模型与定向神经网络模型进行融合,建立目标语言神经网络声学模型;将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数;建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数;生成迁移神经网络声学模型。3.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,将所述定向神经网络的模型参数进行初始化,调整所述鲁棒神经网络声学模型与定向神经网络声学模型之间的连接权重系数,包括:将所述鲁棒神经网络对应层的输出乘以权重系数与所述定向神经网络对应层的输出乘以权重系数进行相加;将所述相加的结果送入所述定向神经网络的下一层进行前向计算,公式为:其中β为鲁棒神经网络的权重系数,和分别为鲁棒神经网络和定向神经网络的(2)第i-1层的输出,为定向神经网络第i层的输入,Wi为定向神经网络第i-1层和第i层之间的连接权重,f为激活函数。4.如权利要求2所述的基于迁移神经网络声学模型的语音识别系统,其特征在于,建立目标语言训练集,固定所述鲁棒神经网络模型参数,根据所述目标语言训练集优化所述融合后定向神经网络模型参数,包括:建立目标语言训练集,固定所述迁移神经网络声学模型中鲁棒神经网络部分的模型参数,根据目标语言训练集对所述迁移神经网络声学模型中定向神经网络部分的模型参数进行更新调优;2CN110070855A权利要求书2/3页所述模型参数调优方式是基于交叉熵代价函数的随机梯度下降方法对模型参数进行更新优化,交叉熵用于度量两个概率分布变量(PL(si|xt))和(P(si|xt))的相似度:其中:上式中PL(si|xt)表示t时刻的特征xt对应的声学状态si的概率,当输出状态的序号i与标注状态的序号lable相同时,PL(si|xt)的概率值定义为1,其他声学状态的概率为0;L表示交叉熵损失函数的值,p(si|xt)表示,声学模型预测的t时刻的特征xt对应声学状态为si的概率值;所述目标语言数据同时送入迁移神经网络中鲁棒神经网络和定向神经网络部分,输出目标语音特征的后验概率,用于解码,得到识别出的语音,与原始语音进行比较后,进行前向反馈,得到训练后的迁移神经网络声学模型。5.一种基于迁移神经网络声学模型的语音识别方法