预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113113044A(43)申请公布日2021.07.13(21)申请号202110309769.1(22)申请日2021.03.23(71)申请人北京小米移动软件有限公司地址100085北京市海淀区西二旗中路33号院6号楼8层018号申请人昆山杜克大学(72)发明人徐娜王林章贾永涛(74)专利代理机构北京善任知识产权代理有限公司11650代理人张振伟(51)Int.Cl.G10L25/03(2013.01)G10L25/51(2013.01)G10L21/0272(2013.01)权利要求书2页说明书10页附图2页(54)发明名称音频处理方法及装置、终端及存储介质(57)摘要本公开是关于一种音频处理方法及装置、终端及存储介质。该方法包括:确定目标对象的第一声纹特征;对混合音频进行预分离处理,获得多路语音信号;根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。通过该方法,能提升语音分离的准确度。CN113113044ACN113113044A权利要求书1/2页1.一种音频处理方法,其特征在于,包括:确定目标对象的第一声纹特征;对混合音频进行预分离处理,获得多路语音信号;根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。2.根据权利要求1所述的方法,其特征在于,所述根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频,包括:确定所述多路语音信号中各语音信号的第二声纹特征;将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。3.根据权利要求2所述的方法,其特征在于,所述将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频,包括:将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。4.根据权利要求3所述的方法,其特征在于,所述子模块包括:多层长短期记忆网络LSTM和全连接层。5.根据权利要求1所述的方法,其特征在于,所述确定目标对象的第一声纹特征,包括:获取所述目标对象的音频信号;根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。6.根据权利要求5所述的方法,其特征在于,所述根据所述音频信号的频谱,提取所述目标对象的第一声纹特征,包括:将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。7.根据权利要求6所述的方法,其特征在于,所述声纹提取网络模型包括:残差网络RESNET;至少一层池化层,与所述RESNET连接;全连接层,与所述池化层连接。8.根据权利要求1所述的方法,其特征在于,所述对混合音频进行预分离处理,获得多路语音信号,包括:对所述混合音频采用独立向量分析IVA方式进行预分离处理,获得所述多路语音信号。9.根据权利要求1至8中任一所述的方法,其特征在于,所述混合音频是语音通话过程中采集到的;所述方法还包括:对所述语音分离后的所述目标音频进行降噪处理,输出增强后的所述目标音频。10.一种音频处理装置,其特征在于,包括:2CN113113044A权利要求书2/2页确定模块,配置为确定目标对象的第一声纹特征;预分离模块,配置为对混合音频进行预分离处理,获得多路语音信号;提取模块,配置为根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频。11.根据权利要求10所述的装置,其特征在于,所述提取模块,还配置为确定所述多路语音信号中各语音信号的第二声纹特征;将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。12.根据权利要求11所述的装置,其特征在于,所述提取模块,还配置为将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。13.根据权利要求12所述的装置,其特征在于,所述子模块包括:多层长短期记忆网络LSTM和全连接层。14.根据权利要求10所述的装置,其特征在于,所述确定模块,还配置为获取所述目标对象的音频信号;根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。15.根据权利要求14所述的装置,其特征在于,所述确定模块,还配置为将所述音频信号的频谱输入预