预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114299957A(43)申请公布日2022.04.08(21)申请号202111448940.3G10L17/02(2013.01)(22)申请日2021.11.29(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦二层(72)发明人郭启行(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人单冠飞(51)Int.Cl.G10L15/26(2006.01)G10L15/20(2006.01)G10L15/30(2013.01)G10L21/0272(2013.01)G10L21/0308(2013.01)权利要求书3页说明书15页附图7页(54)发明名称声纹分离方法、装置、电子设备以及存储介质(57)摘要本公开公开了声纹分离方法、装置、设备以及存储介质,涉及计算机技术领域,尤其涉及语音识别技术领域。具体实现方案为:通过基于音频数据对应的至少一个音频片段的置信度识别结果,去除所述至少一个音频片段中的噪音片段,获取到目标音频片段集合;获取所述目标音频片段集合中至少一个目标音频片段对应的声纹特征;基于所述声纹特征,对所述至少一个目标音频片段进行聚类,得到与所述音频数据对应的声纹分离结果。本公开实施例可以有效去除音频数据中的噪音片段,可以提高有效音频片段获取的准确性,提高声纹分离的准确性。CN114299957ACN114299957A权利要求书1/3页1.一种声纹分离方法,包括:基于音频数据对应的至少一个音频片段的置信度识别结果,去除所述至少一个音频片段中的噪音片段,获取到目标音频片段集合;获取所述目标音频片段集合中至少一个目标音频片段对应的声纹特征;基于所述声纹特征,对所述至少一个目标音频片段进行聚类,得到与所述音频数据对应的声纹分离结果。2.根据权利要求1所述的方法,其中,所述基于音频数据对应的至少一个音频片段的置信度识别结果,去除所述至少一个音频片段中的噪音片段,获取到目标音频片段集合,包括:若所述置信度识别结果指示未识别到音频片段对应的文字信息,则将所述音频片段确定为噪音片段,并将所述噪音片段去除;若所述置信度识别结果指示所述音频片段对应的置信度小于置信度阈值,则将所述音频片段确定为噪音片段,并将所述噪音片段去除;若所述置信度识别结果指示所述音频片段对应的置信度大于或者等于所述置信度阈值,则将所述音频片段确定为目标音频片段,并将所述目标音频片段添加至目标音频片段集合中。3.根据权利要求1所述的方法,还包括:基于音频数据的静音检测结果,对所述音频数据进行切分,获取到所述音频数据对应的至少一个音频片段。4.根据权利要求1所述的方法,其中,所述基于所述声纹特征,对所述至少一个目标音频片段进行聚类,得到与所述音频数据对应的声纹分离结果,包括:基于所述声纹特征,对所述至少一个目标音频片段进行聚类,得到与所述音频数据对应的第一聚类结果和第二聚类结果,其中,不同的聚类结果对应不同的声纹特征;对所述第一聚类结果对应的至少一个音频片段进行语音识别,得到第一文字信息集合;对所述第二聚类结果对应的至少一个音频片段进行语音识别,得到第二文字信息集合;输出与所述音频数据对应的所述第一文字信息集合和所述第二文字信息集合。5.根据权利要求4所述的方法,还包括:获取所述第一文字信息集合中的第一个第一文字信息;获取所述第二文字信息集合中的第一个第二文字信息;若所述第一个第一文字信息满足客服文字信息要求,则确定所述第一文字信息集合为客服文字信息集合,确定所述第二文字信息集合为用户文字信息集合;若所述第一个第二文字信息满足所述客服文字信息要求,则确定所述第二文字信息集合为所述客服文字信息集合,确定所述第一文字信息集合为所述用户文字信息集合。6.根据权利要求4所述的方法,还包括:获取所述第一文字信息集合对应的声纹特征;若所述声纹特征属于客服声纹特征集合,则确定所述第一文字信息集合为客服文字信息集合,确定所述第二文字信息集合为用户文字信息集合;2CN114299957A权利要求书2/3页若所述声纹特征不属于客服声纹特征集合,则确定所述第二文字信息集合为所述客服文字信息集合,确定所述第一文字信息集合为所述用户文字信息集合。7.一种声纹分离装置,包括:音频获取单元,用于基于音频数据对应的至少一个音频片段的置信度识别结果,去除所述至少一个音频片段中的噪音片段,获取到目标音频片段集合;声纹获取单元,用于获取所述目标音频片段集合中至少一个目标音频片段对应的声纹特征;声纹分离单元,用于基于所述声纹特征,对所述至少一个目标音频片段进行聚类,得到与所述音频数据对应的声纹分离结果。8.根据权利要求7所述的装置,其中,所述音频获取单元,用于基于音