端到端的声纹识别方法和声纹识别装置-豆柴文库

端到端的声纹识别方法和声纹识别装置.pdf

2023-07-25

10金币

738KB

19页

Ja****44

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113870860A(43)申请公布日2021.12.31(21)申请号202111164838.0(22)申请日2021.09.30(71)申请人三星（中国）半导体有限公司地址710000陕西省西安市高新区洨河北路1999号申请人三星电子株式会社(72)发明人王凯张晓雷张淼(74)专利代理机构北京铭硕知识产权代理有限公司11286代理人方成张川绪(51)Int.Cl.G10L17/00(2013.01)G10L25/24(2013.01)G10L25/30(2013.01)权利要求书2页说明书12页附图4页(54)发明名称端到端的声纹识别方法和声纹识别装置(57)摘要公开了一种端到端的声纹识别方法和声纹识别装置。所述声纹识别方法包括：基于接收的输入语音，使用端到端深度学习网络的说话人语音提取模块执行说话人语音提取任务，以提取目标说话人的语音特征；基于目标说话人的语音特征，使用端到端深度学习网络的说话人识别模块执行说话人识别任务，以在接收的输入语音中识别目标说话人。CN113870860ACN113870860A权利要求书1/2页1.一种端到端的声纹识别方法，所述声纹识别方法包括：基于接收的输入语音，使用端到端深度学习网络的说话人语音提取模块执行说话人语音提取任务，以提取目标说话人的语音特征；基于目标说话人的语音特征，使用端到端深度学习网络的说话人识别模块执行说话人识别任务，以在接收的输入语音中识别目标说话人。2.如权利要求1所述的声纹识别方法，其中，所述声纹识别方法还包括：基于接收的输入语音，提取输入语音的原始语音特征；其中，执行说话人语音提取任务的步骤包括：基于原始语音特征和预先保存的注册人中间嵌入语音特征，执行说话人语音提取任务。3.如权利要求2所述的声纹识别方法，其中，所述声纹识别方法还包括：基于目标说话人的语音特征和原始语音特征，确定输入语音的说话场景，说话场景包括单人场景和多人场景，其中，执行说话人识别任务的步骤包括：基于输入语音的说话场景来执行说话人识别任务。4.如权利要求3所述的声纹识别方法，其中，确定输入语音的说话场景是单人场景还是多人场景的步骤包括：当目标说话人的语音特征与原始语音特征之间的均方误差小于阈值时，将输入语音的说话场景确定为单说话人场景；当目标说话人的语音特征与原始语音特征之间的均方误差大于或等于阈值时，将输入语音的说话场景确定为多说话人场景，其中，执行说话人识别任务的步骤包括：当输入语音的说话场景为单说话人场景时，将原始语音特征输入到说话人识别模块，利用预先保存的注册人最终语音特征在接收的输入语音中识别目标说话人；当输入语音的说话场景为多说话人场景时，将目标说话人的语音特征输入到说话人识别模块，利用注册人最终语音特征在接收的输入语音中识别目标说话人。5.如权利要求1所述的声纹识别方法，其中，在注册人的声纹注册阶段，所述声纹识别方法还包括：基于接收的注册人语音，提取注册人语音的原始语音特征；基于注册人语音的原始语音特征，利用说话人识别模块提取注册人中间嵌入语音特征并保存；基于注册人中间嵌入语音特征,利用说话人识别模块提取注册人最终语音特征并保存。6.如权利要求5所述的声纹识别方法，其中，执行说话人语音提取任务的步骤包括：利用第一卷积层，从原始语音特征提取目标说话人中间嵌入语音特征；利用拼接层，将目标说话人中间嵌入语音特征和注册人中间嵌入语音特征拼接为拼接特征；利用全卷积层将输入的拼接特征生成掩膜；利用乘法器将掩膜与目标说话人中间嵌入语音特征相乘得到目标说话人的语音特征。2CN113870860A权利要求书2/2页7.如权利要求1所述的声纹识别方法，其中，在端到端深度学习网络训练阶段，端到端深度学习网络还包括：说话人一致性模块，被配置为对基于说话人识别模块输出的中间嵌入语音特征执行语音转换任务。8.如权利要求7所述的声纹识别方法，其中，通过监督学习训练说话人语音提取模块和说话人识别模块，通过自监督学习来训练说话人一致性模块，以获得加权和最小化的第一损失值、第二损失值和第三损失值，其中，第一损失值是说话人语音提取模块的损失值，第二损失值是说话人识别模块的损失值，第三损失值是说话人一致性模块的损失值。9.一种端到端的声纹识别装置，所述声纹识别装置包括：端到端深度学习网络的说话人语音提取模块，基于接收的输入语音，执行说话人语音提取任务，以提取目标说话人的语音特征；端到端深度学习网络的说话人识别模块，基于目标说话人的语音特征，执行说话人识别任务，以在接收的输入语音中识别目标说话人。10.一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时，实现根据权利要求1至8中任一项所述的声纹识别方法。3CN1138

相关资料

端到端的声纹识别方法和声纹识别装置.pdf

公开了一种端到端的声纹识别方法和声纹识别装置。所述声纹识别方法包括：基于接收的输入语音，使用端到端深度学习网络的说话人语音提取模块执行说话人语音提取任务，以提取目标说话人的语音特征；基于目标说话人的语音特征，使用端到端深度学习网络的说话人识别模块执行说话人识别任务，以在接收的输入语音中识别目标说话人。

2023-07-25

738KB

一种端到端的声纹识别方法、装置、存储介质及设备.pdf

本方案公开了一种端到端的声纹识别方法、装置、存储介质及设备，方法包括准备训练用声音数据集；所述训练用声音数据集中的声音数据进行预处理；对预处理后的声音数据进行活动语音段检测，并将检测存在语音段的声音数据进行拼接得到语音数据；提取所述语音数据的对数梅尔特征；基于所述对数梅尔特征构建端到端的深度神经网络模型；根据模型训练的结果提取所述声音数据的声纹特征，建立说话人声纹数据库；基于所述说话人声纹数据库对说话人声音数据进行识别。本方案从数据预处理、端到端的模型、损失函数的改进、训练过程的改进、匹配算法的改进等方面

2023-06-25

777KB

基于频域卷积和三元组损失的端到端声纹识别.docx

基于频域卷积和三元组损失的端到端声纹识别基于频域卷积和三元组损失的端到端声纹识别摘要：声纹识别作为一种生物特征识别技术，在语音识别和安全认证等领域具有广泛的应用。本文提出了一种基于频域卷积和三元组损失的端到端声纹识别方法。该方法利用频域卷积来提取声纹特征，并结合三元组损失进行训练，以提高声纹特征的判别能力。实验表明，本方法在声纹识别任务上取得了较好的性能。关键词：声纹识别、频域卷积、三元组损失、端到端1.引言声纹识别作为一种生物特征识别技术，利用人的声音特征进行身份认证和辨识。与传统的指纹、虹膜等生物特征

2024-10-20

11KB

一种声纹识别、注册装置、及跨设备声纹识别方法.pdf

一种声纹识别、注册装置、及跨设备声纹识别方法，该方法应用于一种系统，该系统包括声纹识别装置和声纹注册装置，声纹注册装置消除第一语音中的与该装置相关的噪声以得到注册声纹信息，该注册声纹信息为识别设备进行声纹识别提供基础；声纹识别装置消除第二语音中与该装置相关的噪声以得到目标声纹信息；在进行语音识别时，声纹识别装置将目标声纹信息与注册声纹信息进行匹配以得到匹配结果，匹配结果用于指示用户身份；注册声纹信息包括消除了该装置对于生物声纹的影响之后的声纹，可以共享给其他设备使用，用户可以在声纹识别装置上实现声纹识别功

2023-07-24

145KB

声纹识别方法和声纹识别系统.pdf

本发明提供了一种声纹识别方法和系统，所述方法包括：接收待测试音频并将其分割为第一和第二部分；选择一个样本音频并将其分割为第一和第二部分；通过使用梅尔倒谱系数的提取方法，提取针对待测试音频和样本音频的特征矩阵；通过将待测试音频的第一部分的特征矩阵作为第一类样本，并将所选样本音频的特征矩阵作为第二类样本，执行支持向量机训练，并计算待测试音频的第二部分与第二类样本的匹配程度；以类似方式针对样本音频的第一部分、待测试音频的第一部分和样本音频的第二部分，分别计算其与对应作为第二类样本的待测试音频、所选样本音频和待测

2023-06-25

677KB