预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114141252A(43)申请公布日2022.03.04(21)申请号202111422132.X(22)申请日2021.11.26(71)申请人青岛海尔科技有限公司地址266101山东省青岛市崂山区海尔路1号海尔工业园申请人海尔智家股份有限公司(72)发明人张卓博(74)专利代理机构北京路浩知识产权代理有限公司11002代理人李文清(51)Int.Cl.G10L17/02(2013.01)G10L17/14(2013.01)G10L25/81(2013.01)G10L25/54(2013.01)权利要求书2页说明书11页附图3页(54)发明名称声纹识别方法、装置、电子设备和存储介质(57)摘要本发明提供一种声纹识别方法、装置、电子设备和存储介质,其中方法包括:对待识别音频进行切分,得到多个音频段;对所述多个音频段进行说话人声音检测,得到多个人声音频段;对所述多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息。本发明提供的方法、装置、电子设备和存储介质,提高了说话人识别的准确率,提高了说话人识别的效率。CN114141252ACN114141252A权利要求书1/2页1.一种声纹识别方法,其特征在于,包括:对待识别音频进行切分,得到多个音频段;对所述多个音频段进行说话人声音检测,得到多个人声音频段;对所述多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息。2.根据权利要求1所述的声纹识别方法,其特征在于,所述对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份信息,包括:基于所述目标类别中各人声音频段属于所述目标类别的置信度,从所述目标类别包括的多个人声音频段中确定至少一个目标人声音频段;基于所述至少一个目标人声音频段,确定所述待识别音频对应的说话人身份信息。3.根据权利要求2所述的声纹识别方法,其特征在于,所述基于所述目标类别中各人声音频段属于所述目标类别的置信度,从所述目标类别包括的多个人声音频段中确定至少一个目标人声音频段,包括:基于所述目标类别中各人声音频段与所述目标类别的聚类中心之间的聚类距离,确定所述目标类别中各人声音频段满足的距离分布;根据所述距离分布确定对应的置信区间,将聚类距离落在所述置信区间中的人声音频段确定为目标人声音频段。4.根据权利要求2或3所述的声纹识别方法,其特征在于,所述基于所述至少一个目标人声音频段,确定所述待识别音频对应的说话人身份信息,包括:对所述至少一个目标人声音频段的声纹特征进行均值归一化,基于均值归一化结果确定所述目标类别的声纹特征;将所述目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定所述待识别音频对应的说话人身份信息。5.根据权利要求4所述的声纹识别方法,其特征在于,所述将所述目标类别的声纹特征与预设声纹库中各声纹数据的声纹特征进行比对,基于比对结果确定所述待识别音频对应的说话人身份信息,包括:基于各声纹数据的声纹特征与所述目标类别的声纹特征之间的特征距离,确定各声纹数据的声纹特征与所述目标类别的声纹特征的声纹相似度;确定所述预设声纹库中与所述目标类别的声纹相似度最高的目标声纹数据,将所述目标声纹数据对应的身份信息作为所述待识别音频对应的说话人身份信息。6.根据权利要求4所述的声纹识别方法,其特征在于,所述预设声纹库基于如下步骤确定:获取多个声纹数据,以及各声纹数据对应的身份信息;对各声纹数据进行声纹特征提取,确定各声纹数据的声纹特征;基于各声纹数据的声纹特征,以及各声纹数据对应的身份信息,建立所述预设声纹库。7.根据权利要求1至6任一项所述的声纹识别方法,其特征在于,所述对所述多个音频段进行说话人声音检测,得到多个人声音频段,包括:2CN114141252A权利要求书2/2页确定各音频段的语音特征;基于各音频段的语音特征,对各音频段进行说话人声音检测,确定各音频段的语音特征为说话人声纹特征的概率;将所述说话人声纹特征的概率大于预设概率阈值的音频段确定为所述人声音频段。8.一种声纹识别装置,其特征在于,包括:切分单元,用于对待识别音频进行切分,得到多个音频段;过滤单元,用于对所述多个音频段进行说话人声音检测,得到多个人声音频段;聚类单元,用于对所述多个人声音频段进行聚类,从聚类所得的多个类别中确定出包含人声音频段数量最多的目标类别;识别单元,用于对所述目标类别中的人声音频段进行声纹识别,确定所述待识别音频对应的说话人身份