预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113936647A(43)申请公布日2022.01.14(21)申请号202111548060.3G10L25/24(2013.01)(22)申请日2021.12.17(71)申请人中国科学院自动化研究所地址100190北京市海淀区中关村东路95号(72)发明人陶建华田正坤易江燕(74)专利代理机构北京华夏泰和知识产权代理有限公司11662代理人李永叶(51)Int.Cl.G10L15/06(2013.01)G10L15/22(2006.01)G10L15/26(2006.01)G10L19/16(2013.01)G10L25/03(2013.01)权利要求书2页说明书8页附图4页(54)发明名称语音识别模型的训练方法、语音识别方法和系统(57)摘要本发明实施例公开了一种语音识别模型的训练方法、语音识别方法和系统,涉及语音识别技术领域。该实施例包括:将音频训练样本输入声学编码器,对音频训练样本进行编码表示,确定声学编码状态向量;将预设的词表输入语言预测器中,确定文本预测向量;将文本预测向量线输入文本映射层,得到文本输出概率分布;根据音频训练样本对应的目标文本序列和文本输出概率分布,计算第一损失函数;将文本预测向量和声学编码状态向量输入联合网络,计算第二损失函数,根据第一损失函数和第二损失函数进行迭代优化,直至满足停止条件。本实施例对语音识别模型的训练、预测过程进行了调整,提高了该语义识别模型的建模能力,从而提高了该语音识别模型的准确率。CN113936647ACN113936647A权利要求书1/2页1.一种语音识别模型的训练方法,其特征在于,所述语音识别模型包括声学编码器、语言预测器、文本映射层和联合网络,所述方法包括:将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示,确定所述音频训练样本的声学编码状态向量;将预设的词表输入所述语言预测器中,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量线输入所述文本映射层,确定所述文本预测向量映射至所述预设的词表中每一标签的概率,得到文本输出概率分布;根据所述音频训练样本对应的目标文本序列和所述文本输出概率分布,计算第一损失函数;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,计算第二损失函数,并根据所述第一损失函数和所述第二损失函数进行迭代优化,直至满足停止条件。2.根据权利要求1所述的方法,其特征在于,据所述第一损失函数和所述第二损失函数进行迭代优化包括:根据所述第一损失函数和所述第二损失函数,确定第三损失函数;根据所述第三损失函数进行迭代优化。3.根据权利要求2所述的方法,其特征在于,所述第一损失函数为交叉熵损失函数,所述第二损失函数为Transducer损失函数。4.根据权利要求3所述的方法,其特征在于,所述方法还包括根据下式确定第三损失函数:其中,L表示第三损失函数,表示第一损失函数,表示第二损失函数,表示预设的权重。5.根据权利要求1所述的方法,其特征在于,将音频训练样本输入所述声学编码器,以对所述音频训练样本进行编码表示包括:将音频训练样本输入所述声学编码器获取所述音频训练样本的声学特征,并对所述音频训练样本的声学特征进行编码表示。6.一种语音识别方法,其特征在于,所述方法应用于权利要求1‑5任一项所训练得到的语音识别模型,所述语音识别模型包括:声学编码器、语言预测器、文本映射层和联合网络;所述方法包括:将待识别音频输入所述声学编码器进行编码表示,确定所述待识别音频的声学编码状态向量;将预设的词表输入所述语言预测器,确定所述预设的词表中每一标签的文本预测向量;将所述文本预测向量输入所述文本映射层,以将所述文本预测向量映射至所述预设的词表,确定所述文本预测向量映射至所述预设的词表中每一标签的第一概率;将所述文本预测向量和所述声学编码状态向量输入所述联合网络,确定所述待识别音频映射至所述预设的词表中每一标签的第二概率;2CN113936647A权利要求书2/2页根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容。7.根据权利要求6所述的方法,其特征在于,根据所述第一概率和所述第二概率,确定所述待识别音频对应的文本内容包括:计算所述第一概率和所述第二概率的加权和;将最大的所述加权和作为所述待识别音频对应的文本内容。8.根据权利要求7所述的方法,其特征在于,所述方法还包括根据下式确定待识别音频对应的文本内容:其中,Token表示待识别音频对应的文本内容,表示第一概率,表示第二概率,表示文本融合权重,表示t时刻的声学编码状态向量,表示预设的词表中第u个标签。9.根据权利要求6所述的方法,其特征在于,将待识别音频输入所述声学编码器进行编码表示包括:将待