预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114333874A(43)申请公布日2022.04.12(21)申请号202111387922.9(22)申请日2021.11.22(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人梁俊斌(74)专利代理机构北京市柳沈律师事务所11105代理人王娟(51)Int.Cl.G10L21/0208(2013.01)G10L21/028(2013.01)G10L25/81(2013.01)权利要求书3页说明书16页附图7页(54)发明名称处理音频信号的方法(57)摘要本公开提供一种处理音频信号的方法、一种用户终端、一种电子设备、一种计算机可读存储介质以及一种计算机程序产品。例如,本公开能够对录音(尤其是对包含歌声的录音)进行智能降噪,其通过智能确定当前录音帧是否用于记录人声,并基于该确定的结果自适应地对录音中的不同片段应用不同的降噪方案,从而实现在抑制环境噪声的同时尽可能地保留录音中的人声信号。CN114333874ACN114333874A权利要求书1/3页1.一种处理音频信号的方法,包括:获取包括多个录音音频帧的音频信号,确定当前录音音频帧对应的时间戳;基于当前录音音频帧对应的时间戳,确定当前录音音频帧是否用于记录人声;响应于当前录音音频帧用于记录人声,对当前录音音频帧进行第一降噪处理,或者响应于当前录音音频帧不用于记录人声,对当前录音音频帧进行第二降噪处理,其中,所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。2.如权利要求1所述的方法,其中,所述第一降噪处理为深度学习降噪处理,所述第二降噪处理为统计降噪处理。3.如权利要求2所述的方法,其中,所述对当前录音音频帧进行第一降噪处理包括:至少部分地基于降噪神经网络,确定所述当前录音音频帧的各个频点对应的降噪增益值;其中,所述降噪神经网络的训练样本包括由噪声音频信号和人声音频信号合成的带噪音频样本。4.如权利要求3所述的方法,其中,所述降噪神经网络包括输入层、人声检测层、噪声谱估计层、噪声消除层,其中,所述输入层的输入为音频帧,输出为所述音频帧对应的音频特征;所述人声检测层的输入为所述音频帧对应的音频特征,输出为人声概率特征;所述噪声谱估计层的输入为所述音频帧对应的音频特征、所述人声概率特征,输出为噪声估计特征;以及所述噪声消除层的输入为所述音频帧对应的音频特征、所述人声概率特征以及所述噪声估计特征,输出为各个频点对应的降噪增益值。5.如权利要求2所述的方法,其中,所述对当前录音音频帧进行第二降噪处理包括:至少部分地基于平稳噪声的统计分布和平稳特性,确定所述当前录音音频帧的各个频点对应的降噪增益值。6.如权利要求5所述的方法,其中,所述确定所述当前录音音频帧的各个频点对应的降噪增益值还包括:对于所述当前录音音频帧的每个频点,基于在先前的多个录音音频帧中统计的所述频点处平稳噪声的功率占总功率的比值,确定所述当前录音音频帧的各个频点对应的降噪增益值。7.如权利要求5所述的方法,其中,所述确定所述当前录音音频帧的各个频点对应的降噪增益值还包括:至少部分地基于平稳噪声的统计分布和平稳特性,确定所述第二降噪处理对应的维纳滤波器;基于所述维纳滤波器,确定所述当前录音音频帧的各个频点对应的降噪增益值。8.如权利要求1所述的方法,其中,所述当前录音音频帧是否用于记录人声是至少部分地基于从参考音源数据中提取的第一参考信号来确定的,所述第一参考信号的提取包括:从参考音源数据中去除伴奏音源数据以获取原唱音源数据;2CN114333874A权利要求书2/3页基于原唱音源数据,确定原唱对应多个起始时刻;基于所述多个起始时刻,确定所述第一参考信号。9.如权利要求1所述的方法,其中,所述当前录音音频帧是否用于记录人声是至少部分地基于从参考音源数据中提取的第二参考信号来确定的,所述第二参考信号的提取包括:从参考音源数据中去除伴奏音源数据以获取原唱音源数据;基于原唱音源数据,确定原唱对应多个暂停时刻或终止时刻;基于所述多个暂停时刻或终止时刻,确定所述第二参考信号。10.一种处理音频信号的方法,包括:获取包括多个录音音频帧的音频信号,响应于当前录音音频帧中包含人声的概率大于等于预定阈值,从对当前录音音频帧进行第一降噪处理切换为对当前录音音频帧进行第二降噪处理;或者响应于当前录音音频帧中包含人声的概率小于预定阈值,从对当前录音音频帧进行第二降噪处理切换为对当前录音音频帧进行第一降噪处理;其中,所述第一降噪处理对噪声的抑制能力高于所述第二降噪处理对噪声的抑制能力。11.一种用户终端,包括音频捕获电路和音频处理电路,其中,所述音频捕获电路被配置为获取包括多个录