预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115985297A(43)申请公布日2023.04.18(21)申请号202211583770.4G10L19/04(2013.01)(22)申请日2022.12.09(71)申请人西安讯飞超脑信息科技有限公司地址710000陕西省西安市高新区西安高新区软件新城天谷八路156号云汇谷D座101(72)发明人冯景南付中华(74)专利代理机构北京路浩知识产权代理有限公司11002专利代理师周淑娟(51)Int.Cl.G10L15/02(2006.01)G10L15/16(2006.01)G10L15/183(2013.01)G10L15/26(2006.01)权利要求书2页说明书13页附图5页(54)发明名称语音识别方法、装置、电子设备及存储介质(57)摘要本发明实施例提供一种语音识别方法、装置、电子设备及存储介质,该方法包括:将待识别语音输入声学模型中,得到所述待识别语音对应的音素序列;将所述音素序列输入第一语言模型中,得到所述待识别语音对应的多个候选解码文本;将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果;基于所述第一预测结果确定所述待识别语音的识别结果。本发明实施例提供的语音识别方法、装置、电子设备及存储介质提高了语音识别的准确度。CN115985297ACN115985297A权利要求书1/2页1.一种语音识别方法,其特征在于,包括:将待识别语音输入声学模型中,得到所述待识别语音对应的音素序列;将所述音素序列输入第一语言模型中,得到所述待识别语音对应的多个候选解码文本;将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果;基于所述第一预测结果确定所述待识别语音的识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果,包括:针对所述多个候选解码文本中的各候选解码文本,将所述候选解码文本输入所述第二语言模型的输入层,得到所述候选解码文本的编码特征;将所述编码特征输入所述第二语言模型的中间层,得到特征子图;将所述特征子图输入所述第二语言模型的输出层,得到所述候选解码文本属于各标准语法结构的第一预测结果。3.根据权利要求2所述的语音识别方法,其特征在于,所述将所述特征子图输入所述第二语言模型的输出层,得到所述候选解码文本属于各标准语法结构的第一预测结果,包括:将所述特征子图输入所述第二语言模型的输出层,确定所述特征子图与各所述标准语法结构对应的标准编码特征之间的相似度;基于所述相似度,确定各所述候选解码文本属于各标准语法结构的第一预测结果。4.根据权利要求2或3所述的语音识别方法,其特征在于,所述第二语言模型的输出层中包括多个有向图,所述有向图用于表征所述标准语法结构。5.根据权利要求1‑3任一项所述的语音识别方法,其特征在于,所述第二语言模型为基于如下方式训练得到的:获取语音样本对应的多个候选样本解码文本;将所述多个候选样本解码文本输入初始第二语言模型中,输出各所述候选样本解码文本属于各标准语法结构的第二预测结果;基于所述第二预测结果,对所述初始第二语言模型进行训练,得到所述第二语言模型。6.根据权利要求5所述的语音识别方法,其特征在于,所述基于所述第二预测结果,对所述初始第二语言模型进行训练,得到所述第二语言模型,包括:针对每个候选样本解码文本,基于所述候选样本解码文本对应的第二预测结果,以及各所述标准语法结构对应的目标值,确定所述候选样本解码文本与各所述标准语法结构之间的损失信息;基于所述候选样本解码文本与各所述标准语法结构之间的损失信息,确定所述候选样本解码文本对应的目标损失;基于各所述候选样本解码文本对应的目标损失,对所述初始第二语言模型进行迭代训练,得到所述第二语言模型。7.根据权利要求1‑3任一项所述的语音识别方法,其特征在于,所述第一预测结果包括各所述候选解码文本属于各标准语法结构的打分值;所述基于所述第一预测结果确定所述待识别语音的识别结果,包括:2CN115985297A权利要求书2/2页将各所述候选解码文本属于各标准语法结构的打分值中,打分值最高的候选解码文本确定为所述识别结果。8.一种语音识别装置,其特征在于,包括:输入模块,用于将待识别语音输入声学模型中,得到所述待识别语音对应的音素序列;所述输入模块,还用于将所述音素序列输入第一语言模型中,得到所述待识别语音对应的多个候选解码文本;所述输入模块,还用于将所述多个候选解码文本输入第二语言模型中,得到各所述候选解码文本属于各标准语法结构的第一预测结果;确定模块,用于基于所述第一预测结果确定所述待识