预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112669855A(43)申请公布日2021.04.16(21)申请号202011492877.9(22)申请日2020.12.17(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人丁国宏蔡玉玉青飞(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G10L17/18(2013.01)G10L17/06(2013.01)G10L17/02(2013.01)G10L21/0308(2013.01)权利要求书2页说明书9页附图5页(54)发明名称语音处理方法和装置(57)摘要本申请公开了语音处理方法和装置,涉及人工智能技术领域,进一步涉及语音处理技术领域。具体实施方式包括:将目标语音分成多个第一片段;将多个第一片段分别输入训练后的神经网络,生成多个第一片段分别对应的特征向量,得到多个特征向量;由多个特征向量,确定出至少两个特征向量作为说话人向量;对于多个说话人向量中的说话人向量,获取该说话人向量与各个特征向量的相关度,并根据相关度对多个第一片段进行迭代聚类,生成不同类别的第一片段之间的分割点;根据分割点,将目标语音或多个第一片段分成至少两个第二片段,其中,每个第二片段对应一个说话人。本申请通过迭代聚类的方式使得不同说话人的特征向量逐渐收敛,实现准确性更高的说话人分离。CN112669855ACN112669855A权利要求书1/2页1.一种语音处理方法,所述方法包括:将目标语音分成多个第一片段;将所述多个第一片段分别输入训练后的神经网络,生成所述多个第一片段分别对应的特征向量,得到多个特征向量;由所述多个特征向量,确定出至少两个特征向量作为说话人向量;对于所述多个说话人向量中的说话人向量,获取该说话人向量与各个特征向量的相关度,并根据所述相关度对所述多个第一片段进行迭代聚类,生成不同类别的第一片段之间的分割点;根据所述分割点,将所述目标语音或所述多个第一片段分成至少两个第二片段,其中,每个第二片段对应一个说话人。2.根据权利要求1所述的方法,其中,所述目标语音存在对应的说话人的数量;所述由所述多个特征向量,确定至少两个特征向量作为说话人向量,包括:对多个所述特征向量进行分类,得到所述数量个类别,确定所述数量个类别分别对应的说话人向量。3.根据权利要求2所述的方法,其中,所述根据所述相关度对所述多个第一片段进行迭代聚类,生成不同类别的第一片段之间的分割点,包括:获取所述数量个类别的说话人向量分别与所述各个特征向量的相关度,根据所述相关度,对所述多个第一片段进行聚类,以对所述数量个类别进行数量减少,生成不同类别的第一片段之间的分割点。4.根据权利要求1所述的方法,其中,所述将目标语音分成多个第一片段,包括:采用说话人变更检测器确定所述目标语音中的说话人跳转点,根据所述说话人跳转点,将所述目标语音分成所述多个第一片段。5.根据权利要求4所述的方法,其中,所述采用说话人变更检测器确定所述目标语音中的说话人跳转点,根据所述说话人跳转点,将所述目标语音分成所述多个第一片段,包括:通过静音检测技术将所述目标语音分成多个基础片段;采用所述说话人变更检测器确定所述多个基础片段分别对应的说话人跳转点;根据所述说话人跳转点,将所述多个基础片段分成所述多个第一片段。6.一种语音处理装置,所述装置包括:第一切分单元,被配置成将目标语音分成多个第一片段;处理单元,被配置成将所述多个第一片段分别输入训练后的神经网络,生成所述多个第一片段分别对应的特征向量,得到多个特征向量;确定单元,被配置成由所述多个特征向量,确定出至少两个特征向量作为说话人向量;聚类单元,被配置成对于所述多个说话人向量中的说话人向量,获取该说话人向量与各个特征向量的相关度,并根据所述相关度对所述多个第一片段进行迭代聚类,生成不同类别的第一片段之间的分割点;第二切分单元,被配置成根据所述分割点,将所述目标语音或所述多个第一片段分成至少两个第二片段,其中,每个第二片段对应一个说话人。7.根据权利要求6所述的装置,其中,所述目标语音存在对应的说话人的数量;所述确定单元,进一步被配置成对多个所述特征向量进行分类,得到所述数量个类别,2CN112669855A权利要求书2/2页确定所述数量个类别分别对应的说话人向量。8.根据权利要求7所述的装置,其中,所述聚类单元,进一步被配置成获取所述数量个类别的说话人向量分别与所述各个特征向量的相关度,根据所述相关度,对所述多个第一片段进行聚类,以对所述数量个类别进行数量减少,生成不同类别的第一片段之间的分割点。9.根