预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112489662A(43)申请公布日2021.03.12(21)申请号202011265361.0(22)申请日2020.11.13(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人童颖(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L17/14(2013.01)G10L25/30(2013.01)权利要求书2页说明书13页附图5页(54)发明名称用于训练语音处理模型的方法和装置(57)摘要本公开的实施例公开了用于训练语音处理模型的方法和装置。该方法的一具体实施方式包括:获取初始第一语音处理模型和端到端的初始第二语音处理模型,其中,初始第一语音处理模型和初始第二语音处理模型包括相同的特征提取网络,初始第二语音处理模型还包括分类网络,特征提取网络用于提取语音的特征向量,分类网络用于根据语音的特征向量确认说话人是否为目标人;利用交替训练的方法训练初始第一语音处理模型和初始第二语音处理模型,以及将训练完成的初始第二语音处理模型确定为待用语音处理模型。该实施方式可以获得端到端的语音处理模型。CN112489662ACN112489662A权利要求书1/2页1.一种用于训练语音处理模型的方法,包括:获取初始第一语音处理模型和端到端的初始第二语音处理模型,其中,所述初始第一语音处理模型和初始第二语音处理模型包括相同的特征提取网络,所述初始第二语音处理模型还包括分类网络,特征提取网络用于提取语音的特征向量,分类网络用于根据语音的特征向量确认说话人是否为目标人;利用交替训练的方法训练所述初始第一语音处理模型和初始第二语音处理模型,以及将训练完成的初始第二语音处理模型确定为待用语音处理模型。2.根据权利要求1所述的方法,其中,所述分类网络利用概率线性判别分析算法实现。3.根据权利要求1所述的方法,其中,所述特征提取网络基于X‑VECTORS构建。4.根据权利要求2所述的方法,其中,所述分类网络使用对数似然比计算语音之间的相似度,其中,所述语音之间的相似度用于表征两个语音属于同一说话人的概率。5.根据权利要求4所述的方法,其中,所述分类网络包括用于对语音的特征向量进行降维的降维层、用于根据所述降维层的输出计算对数似然比的打分层、用于根据打分层的输出进行分类的分类层。6.根据权利要求5所述的方法,其中,所述降维层利用线性判别分析算法实现。7.根据权利要求3所述的方法,其中,所述特征提取网络包括基于时延神经网络构建的第一子网络、统计池化层、第二子网络,其中,所述第一子网络用于提取语音的帧级别的特征向量,所述统计池化层用于统计分析所述第一子网络的输出结果,所述第二子网络用于根据所述统计池化层的输出结果提取语音的句子级别的特征向量。8.根据权利要求1‑7之一所述的方法,其中,所述方法还包括:存储训练完成的初始第一语音处理模型包括的特征提取网络。9.一种说话人识别方法,包括:获取待识别语音;利用预先训练的说话人识别模型根据所述待识别语音,确认所述待识别语音的说话人是否为目标人,其中,所述说话人识别模型基于如权利要求1‑7之一所述的方法生成的待用语音处理模型得到;响应于确定所述待识别语音的说话人不是目标人,生成用于提示所述待识别语音的说话人不是目标人的提示信息以及提示。10.一种语音处理方法,包括:获取待处理语音;利用预先训练的特征提取网络提取所述待处理语音的特征向量,其中,所述特征提取网络利用如权利要求8所述的方法生成;根据所述待处理语音的特征向量进行语音识别和/或语音合成。11.一种用于训练语音处理模型的装置,包括:初始模型获取单元,被配置成获取初始第一语音处理模型和端到端的初始第二语音处理模型,其中,所述初始第一语音处理模型和初始第二语音处理模型包括相同的特征提取网络,所述初始第二语音处理模型还包括分类网络,特征提取网络用于提取语音的特征向量,分类网络用于根据语音的特征向量确认说话人是否为目标人;训练单元,被配置成利用交替训练的方法训练所述初始第一语音处理模型和初始第二2CN112489662A权利要求书2/2页语音处理模型,以及将训练完成的初始第二语音处理模型确定为待用语音处理模型。12.一种说话人识别装置,包括:待识别语音获取单元,被配置成获取待识别语音;确认单元,被配置成利用预先训练的说话人识别模型根据所述待识别语音,确认所述待识别语音的说话人是否为目标人,其中,所述说话人识别模型基于如权利要求1‑7之一所述的方法生成的