预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10
亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
如果您无法下载资料,请参考说明:
1、部分资料下载需要金币,请确保您的账户上有足够的金币
2、已购买过的文档,再次下载不重复扣费
3、资料包下载后请先用软件解压,在使用对应软件打开
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111712874A(43)申请公布日2020.09.25(21)申请号201980011206.5(51)Int.Cl.(22)申请日2019.10.31G10L17/18(2013.01)G10L17/04(2013.01)(85)PCT国际申请进入国家阶段日G10L17/02(2013.01)2020.07.31G10L17/00(2013.01)(86)PCT国际申请的申请数据PCT/CN2019/1148122019.10.31(87)PCT国际申请的公布数据WO2020/035085EN2020.02.20(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人王志铭姚开盛李小龙(74)专利代理机构北京博思佳知识产权代理有限公司11415代理人周嗣勇权利要求书2页说明书16页附图6页(54)发明名称用于确定声音特性的系统和方法(57)摘要提供了用于确定声音特性的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。方法之一包括:获得说话者的语音数据;将所述语音数据输入到至少通过联合地最小化第一损失函数和第二损失函数而训练的模型中,其中,所述第一损失函数包括基于非采样的损失函数,所述第二函数包括具有非单位多元协方差矩阵的高斯混合损失函数;以及从经训练模型中获得所述说话者的一个或多个声音特性。CN111712874ACN111712874A权利要求书1/2页1.一种计算机实现的用于确定声音特性的方法,包括:获得说话者的语音数据;将所述语音数据输入到至少通过联合地最小化第一损失函数和第二损失函数而训练的模型中,其中,所述第一损失函数包括基于非采样的损失函数,所述第二函数包括具有非单位多元协方差矩阵的高斯混合损失函数;以及从经训练模型中获得所述说话者的一个或多个声音特性。2.如权利要求1所述的方法,其中:通过最小化所述第一损失函数来训练所述模型,优化说话者分类;以及通过最小化所述第二损失函数来训练所述模型,优化说话者聚类。3.如权利要求1至2中任一项所述的方法,其中:所述非单位多元协方差矩阵包括标准偏差对角矩阵。4.如权利要求1至3中任一项所述的方法,其中:所述具有非单位多元协方差矩阵的高斯混合损失函数包括大间隔高斯混合损失函数。5.如权利要求1至4中任一项所述的方法,其中:所述基于非采样的损失函数包括附加性间隔软最大softmax损失函数。6.如权利要求1至5中任一项所述的方法,其中:所述第一损失函数充当所述第二损失函数的调节器;以及所述第二损失函数充当所述第一损失函数的调节器。7.如权利要求1至6中任一项所述的方法,还包括:获得一个或多个说话者中的每个说话者的一个或多个声音特性;获得候选用户的一个或多个声音特性;将所述候选用户的一个或多个声音特性与所述一个或多个说话者中的每个说话者的一个或多个特性进行比较;以及至少基于所述比较来识别所述候选用户是否是所述一个或多个说话者中的任何说话者。8.如权利要求1至6中任一项所述的方法,还包括:获得候选用户的一个或多个声音特性;将所述候选用户的一个或多个声音特性与所述说话者的一个或多个特性进行比较;以及至少基于所述比较来验证所述候选用户是否是所述说话者。9.如权利要求7至8中任一项所述的方法,其中:将所述候选用户的一个或多个声音特性与所述一个或多个说话者中的每个说话者的一个或多个特性进行比较包括:将表示所述候选用户的一个或多个声音特性的向量和表示所述一个或多个说话者中的每个说话者的一个或多个特性的不同向量之间的距离与阈值进行比较。10.如权利要求1至9中任一项所述的方法,其中:获得所述说话者的语音数据包括,获得与所述语音数据相对应的声谱图,以及获得与所述声谱图相对应的多个特征向量;以及将所述语音数据输入到所述经训练模型中包括,将所述多个特征向量输入到所述经训2CN111712874A权利要求书2/2页练模型中。11.如权利要求10所述的方法,其中,所述经训练模型包括:第一卷积层,被配置为接收所述多个特征向量作为所述第一卷积层的输入;第一池化层,被配置为接收所述第一卷积层的输出作为所述第一池化层的输入;多个残差网络层,被配置为接收所述第一池化层的输出作为所述多个残差网络层的输入;第二卷积层,被配置为接收所述多个残差网络层的输出作为所述第二卷积层的输入;第二池化层,被配置为接收所述第二卷积层的输出作为所述第二池化层的输入;以及嵌入层,被配置为接收所述第二池化层的输出作为所述嵌入层的输入,并输出表示所述说话者的一个或多个声音特性的向量。12.如权利要求11所述的方法,其中:最小化所述第一损失函数包括,至少对于所述嵌入层,最小化基于非采样的