预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113674745A(43)申请公布日2021.11.19(21)申请号202010361720.6(22)申请日2020.04.30(71)申请人京东数字科技控股有限公司地址100176北京市北京经济技术开发区科创十一街18号C座2层221室(72)发明人付立(74)专利代理机构北京同立钧成知识产权代理有限公司11205代理人陈文香臧建明(51)Int.Cl.G10L15/26(2006.01)G10L15/06(2013.01)权利要求书2页说明书13页附图5页(54)发明名称语音识别方法及装置(57)摘要本发明实施例提供一种语音识别方法及装置,服务器获得待处理的语音信号后,利用预先部署的增量训练模型对该语音信号进行识别从而得到文本信息。由于增量训练模型是预先采用知识蒸馏的方式,仅利用少量新业务场景的样本对旧业务场景的ASR模型进行训练得到的,使得该增量训练模型既能够适用于新业务场景又能保留旧业务场景的语音信号的识别能力,解决了采用全量数据训练带来的时间成本以及深度迁移学习导致的泛化能力下降的问题。CN113674745ACN113674745A权利要求书1/2页1.一种语音识别方法,其特征在于,包括:获取待处理的语音信号,所述语音信号是新业务场景的语音信号;利用增量训练模型识别所述语音信号,以得到文本信息;其中,所述增量训练模型是利用针对所述新业务场景的样本,对针对旧业务场景的自动语音识别ASR模型进行知识蒸馏处理得到的。2.根据权利要求1所述的方法,其特征在于,所述利用增量训练模型识别所述语音信号,以得到文本信息之前,还包括:根据所述ASR模型构建固定模型,所述固定模型和所述ASR模型的结构相同且参数也相同,所述固定模型的参数在训练过程中保持不变;根据所述ASR模型、所述固定模型和针对所述新业务场景的样本,确定所述增量训练模型的损失函数;利用针对所述新业务场景的样本对所述ASR模型进行训练使得所述ASR模型的损失函数的损失值最小,以得到所述增量训练模型。3.根据权利要求2所述的方法,其特征在于,所述根据所述ASR模型、所述固定模型和针对所述新业务场景的样本,确定所述增量训练模型的损失函数,包括:将针对所述新业务场景的样本输入至所述ASR模型得到第一输出结果,将针对所述新业务场景的样本输入至所述ASR模型得到第二输出结果;根据所述第一输出结果和所述第二输出结果构建知识蒸馏损失函数;根据针对所述新业务场景的样本和所述ASR模型,构建针对所述新业务场景的连接主义时间分类CTC损失函数;根据所述知识蒸馏损失函数和所述针对所述新业务场景的CTC损失函数,确定所述增量训练模型的损失函数。4.根据权利要求3所述的方法,其特征在于,第一样本集和第二样本集中的任意一个样本表示为其中,所述第一样本集包含来自所述旧业务场景的样本,所述第二样本集包含来自所述新业务场景的样本,i∈[1,Nk],Nk表示样本集中样本的数量,表示样本的频谱特征矢量,表示拼音标注结果,k∈[1,2];当k=1时,表示的样本属于所述第一样本集,当k=2时,表示的样本属于所述第二样本集;所述知识蒸馏损失函数为:其中,Fs表示所述ASR模型,Ft表示所述固定模型,表示所述第一输出结果,表示所述第二输出结果,L2,KL表示所述知识蒸馏损失函数,lKL(·)表示散度;所述针对所述新业务场景的CTC损失函数为:其中,L2,c表示针对所述新业务场景包含正则项的CTC损失函数,lc(·)表示CTC损失函数,表示所述ASR模型中所有参数的2-范数的总和,λ1表示正则项系数;所述增量训练模型的损失函数为:L2=λ2L2,c+(1-λ2)σL2,KL,其中,L2表示所述增量训练模型的损失函数,λ2表示所述增量训练模型对所述旧业务场景的语音信号和所述新业务场2CN113674745A权利要求书2/2页景的语音信号的学习能力,σ表示用于平衡L2,KL和L2,c的数值尺度。5.根据权利要求1-4任一项所述的方法,其特征在于,所述利用增量训练模型识别所述语音信号,以得到文本信息之前,还包括:对针对所述旧业务场景的样本进行训练,以得到所述ASR模型,所述ASR模型的损失函数为:其中,L1表示针对所述旧业务场景包含正则项的CTC损失函数,lc(·)表示CTC损失函数,表示所述ASR模型中所有参数的2-范数的总和,λ1表示正则项系数。6.根据权利要求5所述的方法,其特征在于,所述对针对所述旧业务场景的样本进行训练,以得到所述ASR模型之前,还包括:对针对所述旧业务场景的音频数据进行标注,以得到所述音频数据的汉字标注结果;根据汉字和拼音的对应关系,将所述汉字标注结果转换为拼音标注结果;根据所述音频数据的频谱特征矢量和所述拼音标