预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共39页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113763933A(43)申请公布日2021.12.07(21)申请号202110491672.7G06N3/04(2006.01)(22)申请日2021.05.06G06N3/08(2006.01)(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人游钊冯树林苏丹(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人张所明(51)Int.Cl.G10L15/06(2013.01)G10L15/16(2006.01)G10L15/26(2006.01)G10L25/24(2013.01)G10L25/30(2013.01)权利要求书5页说明书26页附图7页(54)发明名称语音识别方法、语音识别模型的训练方法、装置和设备(57)摘要本申请公开了一种语音识别方法、语音识别模型的训练方法、装置和设备,属于语音交互技术领域。方法包括:获取待识别的语音数据对应的特征向量和目标语音识别模型,目标语音识别模型的结构包括共享嵌入式网络和前层网络,前层网络包括多专家网络层和自注意神经网络,多专家网络层包括目标路由矩阵和多个前馈神经网络,目标路由矩阵基于损失函数得到,共享嵌入式网络和目标路由矩阵用于确定多个前馈神经网络分别对应的概率系数;调用目标语音识别模型对特征向量进行处理,得到语音数据对应的文本内容。该方法得到的文本内容与语音数据的匹配度较高,文本内容的准确性较高。CN113763933ACN113763933A权利要求书1/5页1.一种语音识别方法,其特征在于,所述方法包括:获取待识别的语音数据对应的特征向量和目标语音识别模型,所述目标语音识别模型的结构包括共享嵌入式网络和前层网络,所述前层网络包括多专家网络层和自注意神经网络,所述多专家网络层包括目标路由矩阵和多个前馈神经网络,所述目标路由矩阵基于损失函数得到,所述共享嵌入式网络和所述目标路由矩阵用于确定所述多个前馈神经网络分别对应的概率系数;调用所述目标语音识别模型对所述特征向量进行处理,得到所述语音数据对应的文本内容。2.根据权利要求1所述的方法,其特征在于,所述调用所述目标语音识别模型对所述特征向量进行处理,得到所述语音数据对应的文本内容,包括:基于所述共享嵌入式网络对所述特征向量进行处理,得到所述语音数据对应的嵌入向量;基于所述目标语音识别模型中的第一个自注意神经网络对所述特征向量进行处理,得到所述语音数据对应的第一向量;基于所述语音数据对应的嵌入向量、所述语音数据对应的第一向量和所述目标语音识别模型的第一个多专家网络层包括的目标路由矩阵,确定所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数;基于所述第一向量和所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数,确定所述语音数据对应的文本内容。3.根据权利要求2所述的方法,其特征在于,所述基于所述第一向量和所述第一个多专家网络层包括的多个前馈神经网络分别对应的概率系数,确定所述语音数据对应的文本内容,包括:在所述第一个多专家网络层包括的多个前馈神经网络中确定概率系数最大的目标前馈神经网络;基于所述第一向量和所述目标前馈神经网络的概率系数,得到第二向量;基于所述第二向量,确定所述语音数据对应的文本内容。4.根据权利要求3所述的方法,其特征在于,所述基于所述第二向量,确定所述语音数据对应的文本内容,包括:响应于所述目标语音识别模型包括一个自注意神经网络和一个多专家网络层,将所述第二向量对应的文本内容确定为所述语音数据对应的文本内容;响应于所述目标语音识别模型包括多个自注意神经网络和多个多专家网络层,基于剩余多专家网络层包括的目标路由矩阵、所述第二向量和所述嵌入向量,对所述第二向量进行更新,得到第三向量;基于所述第三向量,确定所述语音数据对应的文本内容。5.根据权利要求4所述的方法,其特征在于,基于剩余多专家网络层包括的路由对应的目标路由矩阵、所述第二向量和所述嵌入向量,对所述第二向量进行更新,得到第三向量,包括:基于所述第二向量、所述嵌入向量和目标多专家网络层包括的目标路由矩阵,确定所述目标多专家网络层包括的多个前馈神经网络分别对应的概率系数,所述目标多专家网络层为所述剩余多专家网络层中的任意一个;2CN113763933A权利要求书2/5页确定所述目标多专家网络层对应的目标前馈神经网络;基于所述第二向量和所述目标多专家网络层对应的目标前馈神经网络,得到所述第三向量;所述基于所述第三向量,确定所述语音数据对应的文本内容,包括:响应于所述目标多专家网络层为所述目标语音识别模型的最后一个多专家网络层,将所述第三向量对应的文本内容确定为所述语音数据对应的文本