预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111724807A(43)申请公布日2020.09.29(21)申请号202010780016.4(22)申请日2020.08.05(71)申请人字节跳动有限公司地址美国加利福尼亚州(72)发明人孔秋强宋旭晨王雨轩(74)专利代理机构北京市立方律师事务所11330代理人张筱宁(51)Int.Cl.G10L21/028(2013.01)G10L25/30(2013.01)G10L25/48(2013.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书16页附图4页(54)发明名称音频分离方法、装置、电子设备及计算机可读存储介质(57)摘要本公开提供了一种音频分离方法、装置、电子设备及计算机可读存储介质,涉及音频处理领域。该方法包括:获取待分离的音频;所述待分离的音频包含至少两种类型的音轨;将所述音频输入训练后的音频分离模型,以使得所述分离模型中的第一分支基于频谱图对所述音频进行分离,得到第一分离结果,以及使得所述分离模型中的第二分支基于时域对所述音频进行分离,得到第二分离结果,并基于所述第一分离结果和所述第二分离结果得到分离后的目标音轨;所述目标音轨的类型为所述至少两种类型中的任一种,且与所述训练后的音频分离模型的分离类型相同;输出所述目标音轨。本公开达到了音乐源分离的最新性能。CN111724807ACN111724807A权利要求书1/2页1.一种音频分离方法,其特征在于,包括:获取待分离的音频;所述待分离的音频包含至少两种类型的音轨;将所述音频输入训练后的音频分离模型,以使得所述分离模型中的第一分支基于频谱图对所述音频进行分离,得到第一分离结果,以及使得所述分离模型中的第二分支基于时域对所述音频进行分离,得到第二分离结果,并基于所述第一分离结果和所述第二分离结果得到分离后的目标音轨;所述目标音轨的类型为所述至少两种类型中的任一种,且与所述训练后的音频分离模型的分离类型相同;输出所述目标音轨。2.根据权利要求1所述的音频分离方法,其特征在于,所述音频分离模型通过如下方式生成:基于预设的原始音频集生成新的目标音频集;所述目标音频集包含至少一个目标音频样本,每个目标音频样本包含至少两种类型的目标音轨样本;将所述目标音频集中的任一目标音频样本输入预设的音频分离模型,以使得所述分离模型中的第一分支基于频谱图对所述音频样本进行分离,得到第三分离结果,以及使得所述分离模型中的第二分支基于时域对所述音频样本进行分离,得到第四分离结果,并基于所述第三分离结果和所述第四分离结果得到预测音轨;基于所述预测音轨与所述任一目标音频样本中相同类型的目标音轨样本计算得到损失函数,并基于所述损失函数对所述预设的音频分离模型的各个预设参数进行更新;重复执行将所述目标音频集中的任一目标音频样本输入预设的音频分离模型,以使得所述分离模型中的第一分支基于频谱图对所述音频样本进行分离,得到第三分离结果,以及使得所述分离模型中的第二分支基于时域对所述音频样本进行分离,得到第四分离结果,并基于所述第三分离结果和所述第四分离结果得到预测音轨,以及,基于所述预测音轨与所述任一目标音频样本中相同类型的目标音轨样本计算得到损失函数,并基于所述损失函数对所述预设的音频分离模型的各个预设参数进行更新的步骤,直至所述损失函数最小值收敛,得到训练后的音频分离模型。3.根据权利要求1所述的音频分离方法,其特征在于,所述音频分离模型中的第一分支基于频谱图对所述音频进行分离,得到第一分离结果,包括:对所述音频进行傅里叶变换,得到所述音频的频谱图;计算得到所述频谱图的相位;基于所述相位确定出待分离类型的第一音轨的频谱图;对所述第一音轨的频谱图进行反傅里叶变换,得到第一音轨。4.根据权利要求1所述的音频分离方法,其特征在于,所述音频分离模型中的第二分支基于时域对所述音频进行分离,得到第二分离结果,包括:基于预设的时域回归函数对所述音频进行分离,得到待分离类型的第二音轨。5.根据权利要求1或3或4所述的音频分离方法,其特征在于,基于所述第一分离结果和所述第二分离结果得到分离后的目标音轨,包括:将第一音轨与第二音轨进行整合,得到目标音轨。6.根据权利要求2所述的音频分离方法,其特征在于,所述原始音频集包含至少一个类型的音轨,每个类型的音轨包含至少一条原始音轨;2CN111724807A权利要求书2/2页所述基于预设的原始音频集生成新的目标音频集,包括:从各个类型的各个原始音轨中各自随机提取出两段预设时长的音轨片段;将两段音轨片段进行混合,得到具有所述预设时长的、混合后的各个第一音轨片段;将不同类型的任意两个第一音轨片段进行混合,得到具有所述预设时长的、混合后的各个第二音轨片段