预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113868461A(43)申请公布日2021.12.31(21)申请号202111192106.2(22)申请日2021.10.13(71)申请人北京声智科技有限公司地址100094北京市海淀区北清路81号院一区1号楼6层601(72)发明人哈玉杰李智勇陈孝良(74)专利代理机构北京银龙知识产权代理有限公司11243代理人赵品健(51)Int.Cl.G06F16/632(2019.01)G06K9/62(2006.01)G10L17/18(2013.01)权利要求书2页说明书9页附图2页(54)发明名称声纹识别方法、装置、电子设备及可读存储介质(57)摘要本公开提供一种声纹识别方法、装置、电子设备及可读存储介质。声纹识别方法包括:生成与待识别音频对应的第一声纹向量;检索目标数据库,得到所述目标数据库中与所述第一声纹向量匹配的N个声纹向量,N为大于1的整数;计算所述N个声纹向量中每个声纹向量与所述第一声纹向量的相似度,得到N个相似度值;将第二声纹向量对应的用户确定为所述第一声纹向量对应的用户,所述第二声纹向量为所述N个相似度值中最高相似度值对应的声纹向量。本公开可以提高声纹识别准确率。CN113868461ACN113868461A权利要求书1/2页1.一种声纹识别方法,其特征在于,包括:生成与待识别音频对应的第一声纹向量;检索目标数据库,得到所述目标数据库中与所述第一声纹向量匹配的N个声纹向量,N为大于1的整数;计算所述N个声纹向量中每个声纹向量与所述第一声纹向量的相似度,得到N个相似度值;将第二声纹向量对应的用户确定为所述第一声纹向量对应的用户,所述第二声纹向量为所述N个相似度值中最高相似度值对应的声纹向量。2.根据权利要求1所述的方法,其特征在于,所述目标数据库为P个,所述P个目标数据库与P个区域一一对应,P为大于1的整数;所述检索目标数据库,得到所述目标数据库中与所述第一声纹向量匹配的N个声纹向量,包括:获取与所述待识别音频对应的Q个区域,Q为小于或等于P的正整数;检索Q个目标数据库中的至少一个目标数据库,得到与所述第一声纹向量匹配的N个声纹向量,所述Q个目标数据库与所述Q个区域一一对应。3.根据权利要求2所述的方法,其特征在于,所述检索与所述Q个区域一一对应的Q个目标数据库中的至少一个目标数据库,包括:获取所述Q个区域的检索优先级;按照所述Q个区域的检索优先级从高到低的顺序检索所述Q个目标数据库,直至满足以下任一项:完成所述Q个目标数据库的检索;与所述第一声纹向量匹配的声纹向量的数量达到N。4.根据权利要求1所述的方法,其特征在于,所述目标数据库为K个,所述K个目标数据库与K个预设等级一一对应,K为大于1的整数;所述检索目标数据库,得到所述目标数据库中与所述第一声纹向量匹配的N个声纹向量,包括:按照所述K个预设等级从高到低的顺序检索所述K个目标数据库,直至满足以下任一项:完成所述K个目标数据库的检索;确定的与所述第一声纹向量匹配的声纹向量的数量达到N。5.根据权利要求1所述的方法,其特征在于,所述检索目标数据库,得到所述目标数据库中与所述第一声纹向量匹配的N个声纹向量,包括:确定所述待识别音频是否满足第一条件;在所述待识别音频满足所述第一条件的情况下,获取与所述待识别音频对应的多个区域,按照所述多个区域的检索优先级从高到低的顺序检索与所述多个区域一一对应的多个目标数据库,直至满足以下任一项:完成与所述多个区域一一对应的多个目标数据库的检索;与所述第一声纹向量匹配的声纹向量的数量达到N;在所述待识别音频不满足所述第一条件的情况下,按照多个预设等级从高到低的顺序检索与所述多个预设等级一一对应的多个目标数据库,直至满足以下任一项:完成与所述多个预设等级一一对应的多个目标数据库的检索;确定的与所述第一声纹向量匹配的声纹向量的数量达到N。2CN113868461A权利要求书2/2页6.根据权利要求1至5中任一项所述的方法,其特征在于,所述计算所述N个声纹向量中每个声纹向量与所述第一声纹向量的相似度,包括:计算所述N个声纹向量中每个声纹向量与所述第一声纹向量的余弦距离,得到N个余弦距离值;其中,所述N个相似度值为所述N个余弦距离值。7.根据权利要求1至5中任一项所述的方法,其特征在于,所述目标数据库为Faiss数据库。8.一种声纹识别装置,应用于电子设备,其特征在于,包括:生成模块,用于生成与待识别音频对应的第一声纹向量;检索模块,用于检索目标数据库,得到所述目标数据库中与所述第一声纹向量匹配的N个声纹向量,N为大于1的整数;计算模块,用于计算所述N个声纹向量中每个声纹向量与所述第一声纹向量的相似度,得到N个相似度值;确定模块,用于将第二声纹向量对应的