预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113921022A(43)申请公布日2022.01.11(21)申请号202111517138.5(22)申请日2021.12.13(71)申请人北京世纪好未来教育科技有限公司地址100089北京市海淀区中关村大街32号蓝天和盛大厦1702-03室(72)发明人智鹏鹏陈昌滨(74)专利代理机构北京开阳星知识产权代理有限公司11710代理人唐博(51)Int.Cl.G10L19/02(2013.01)G10L21/0272(2013.01)G10L25/30(2013.01)权利要求书2页说明书10页附图4页(54)发明名称音频信号分离方法、装置、存储介质和电子设备(57)摘要本公开涉及一种音频信号分离方法、装置、存储介质和电子设备,其中方法包括:获取原始音频信号,其包括目标音频信号和背景音频信号;对原始音频信号进行短时傅里叶变换处理得到原始音频信号的频谱;将原始音频信号输入预设分离模型以得到目标音频信号对应的第一掩膜,基于第一掩膜和原始音频信号的频谱中的幅值谱生成目标音频信号对应的幅值谱;基于目标音频信号对应的幅值谱、原始音频信号的频谱中的相位谱得到目标音频信号对应的第一目标频谱;将第一目标频谱输入语音增强模型以得到目标音频信号对应的第二掩膜,基于第二掩膜和第一目标频谱,确定目标音频信号对应的第二目标频谱;对第二目标频谱进行短时傅里叶逆变换处理得到目标音频信号。CN113921022ACN113921022A权利要求书1/2页1.一种音频信号分离方法,其特征在于,包括:获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;基于所述目标音频信号对应的幅值谱、所述原始音频信号的频谱中的相位谱,得到所述目标音频信号对应的第一目标频谱;将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱;对所述第二目标频谱进行短时傅里叶逆变换处理,得到目标音频信号。2.根据权利要求1所述的音频信号分离方法,其特征在于,所述语音增强模型是带有注意力机制的语音增强模型;所述将所述第一目标频谱输入语音增强模型,以得到所述目标音频信号对应的第二掩膜,包括:提取所述第一目标频谱的特征信息;基于所述注意力机制提取所述特征信息中的目标特征信息;基于所述特征信息和所述目标特征信息确定第二掩膜。3.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述对所述原始音频信号进行短时傅里叶变换处理之前,所述方法包括:对所述原始音频信号添加具有不同预设信噪比的噪音信号,得到混和音频信号;将所述混和音频信号作为新的原始音频信号,返回所述对所述原始音频信号进行短时傅里叶变换处理的步骤。4.根据权利要求3所述的音频信号分离方法,其特征在于,所述对所述原始音频信号进行短时傅里叶变换处理,包括:对所述原始音频信号进行预处理,得到预处理音频信号;其中,所述预处理包括分帧处理和加窗函数处理;对所述预处理音频信号进行短时傅里叶变换处理。5.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱,包括:对所述第一掩膜和所述原始音频信号的频谱中的幅值谱做哈达玛积处理,得到所述目标音频信号对应的幅值谱。6.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述基于所述第二掩膜和所述第一目标频谱,确定所述目标音频信号对应的第二目标频谱,包括:对所述第二掩膜和所述第一目标频谱进行点乘处理,得到所述目标音频信号对应的第二目标频谱。7.根据权利要求1或2所述的音频信号分离方法,其特征在于,所述预设分离模型包括GRU(GatedRecurrentUnit)神经网络模型。2CN113921022A权利要求书2/2页8.一种音频信号分离装置,其特征在于,包括:获取模块,用于获取待分离的原始音频信号,所述原始音频信号包括目标音频信号和背景音频信号;变换模块,用于对所述原始音频信号进行短时傅里叶变换处理,得到所述原始音频信号的频谱,所述频谱包括相位谱和幅值谱;第一处理模块,用于将所述原始音频信号输入预设分离模型,以得到所述目标音频信号对应的第一掩膜,基于所述第一掩膜和所述原始音频信号的频谱中的幅值谱,生成所述目标音频信号对应的幅值谱;第二处理模块,用于基于所述目标音频信号对应