预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113870860A(43)申请公布日2021.12.31(21)申请号202111164838.0(22)申请日2021.09.30(71)申请人三星(中国)半导体有限公司地址710000陕西省西安市高新区洨河北路1999号申请人三星电子株式会社(72)发明人王凯张晓雷张淼(74)专利代理机构北京铭硕知识产权代理有限公司11286代理人方成张川绪(51)Int.Cl.G10L17/00(2013.01)G10L25/24(2013.01)G10L25/30(2013.01)权利要求书2页说明书12页附图4页(54)发明名称端到端的声纹识别方法和声纹识别装置(57)摘要公开了一种端到端的声纹识别方法和声纹识别装置。所述声纹识别方法包括:基于接收的输入语音,使用端到端深度学习网络的说话人语音提取模块执行说话人语音提取任务,以提取目标说话人的语音特征;基于目标说话人的语音特征,使用端到端深度学习网络的说话人识别模块执行说话人识别任务,以在接收的输入语音中识别目标说话人。CN113870860ACN113870860A权利要求书1/2页1.一种端到端的声纹识别方法,所述声纹识别方法包括:基于接收的输入语音,使用端到端深度学习网络的说话人语音提取模块执行说话人语音提取任务,以提取目标说话人的语音特征;基于目标说话人的语音特征,使用端到端深度学习网络的说话人识别模块执行说话人识别任务,以在接收的输入语音中识别目标说话人。2.如权利要求1所述的声纹识别方法,其中,所述声纹识别方法还包括:基于接收的输入语音,提取输入语音的原始语音特征;其中,执行说话人语音提取任务的步骤包括:基于原始语音特征和预先保存的注册人中间嵌入语音特征,执行说话人语音提取任务。3.如权利要求2所述的声纹识别方法,其中,所述声纹识别方法还包括:基于目标说话人的语音特征和原始语音特征,确定输入语音的说话场景,说话场景包括单人场景和多人场景,其中,执行说话人识别任务的步骤包括:基于输入语音的说话场景来执行说话人识别任务。4.如权利要求3所述的声纹识别方法,其中,确定输入语音的说话场景是单人场景还是多人场景的步骤包括:当目标说话人的语音特征与原始语音特征之间的均方误差小于阈值时,将输入语音的说话场景确定为单说话人场景;当目标说话人的语音特征与原始语音特征之间的均方误差大于或等于阈值时,将输入语音的说话场景确定为多说话人场景,其中,执行说话人识别任务的步骤包括:当输入语音的说话场景为单说话人场景时,将原始语音特征输入到说话人识别模块,利用预先保存的注册人最终语音特征在接收的输入语音中识别目标说话人;当输入语音的说话场景为多说话人场景时,将目标说话人的语音特征输入到说话人识别模块,利用注册人最终语音特征在接收的输入语音中识别目标说话人。5.如权利要求1所述的声纹识别方法,其中,在注册人的声纹注册阶段,所述声纹识别方法还包括:基于接收的注册人语音,提取注册人语音的原始语音特征;基于注册人语音的原始语音特征,利用说话人识别模块提取注册人中间嵌入语音特征并保存;基于注册人中间嵌入语音特征,利用说话人识别模块提取注册人最终语音特征并保存。6.如权利要求5所述的声纹识别方法,其中,执行说话人语音提取任务的步骤包括:利用第一卷积层,从原始语音特征提取目标说话人中间嵌入语音特征;利用拼接层,将目标说话人中间嵌入语音特征和注册人中间嵌入语音特征拼接为拼接特征;利用全卷积层将输入的拼接特征生成掩膜;利用乘法器将掩膜与目标说话人中间嵌入语音特征相乘得到目标说话人的语音特征。2CN113870860A权利要求书2/2页7.如权利要求1所述的声纹识别方法,其中,在端到端深度学习网络训练阶段,端到端深度学习网络还包括:说话人一致性模块,被配置为对基于说话人识别模块输出的中间嵌入语音特征执行语音转换任务。8.如权利要求7所述的声纹识别方法,其中,通过监督学习训练说话人语音提取模块和说话人识别模块,通过自监督学习来训练说话人一致性模块,以获得加权和最小化的第一损失值、第二损失值和第三损失值,其中,第一损失值是说话人语音提取模块的损失值,第二损失值是说话人识别模块的损失值,第三损失值是说话人一致性模块的损失值。9.一种端到端的声纹识别装置,所述声纹识别装置包括:端到端深度学习网络的说话人语音提取模块,基于接收的输入语音,执行说话人语音提取任务,以提取目标说话人的语音特征;端到端深度学习网络的说话人识别模块,基于目标说话人的语音特征,执行说话人识别任务,以在接收的输入语音中识别目标说话人。10.一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时,实现根据权利要求1至8中任一项所述的声纹识别方法。3CN1138