预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共33页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114283827A(43)申请公布日2022.04.05(21)申请号202110954696.1(22)申请日2021.08.19(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人王赫麟吴渤翁超苏丹(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人张所明(51)Int.Cl.G10L21/0208(2013.01)G10L21/0232(2013.01)权利要求书3页说明书18页附图11页(54)发明名称音频去混响方法、装置、设备和存储介质(57)摘要本申请公开了一种音频去混响方法、装置、设备和存储介质,属于计算机技术领域。该方法包括:根据预设扩展帧数确定扩展音频段;将扩展音频段中每个音频帧的频谱数据输入时序注意力网络,得到每个参考音频帧的频谱数据对应的权重值;将每个参考音频帧的频谱数据与对应的权重值相乘,得到每个参考音频帧的调整后的频谱数据;根据每个参考音频帧的调整后的频谱数据、目标音频帧的频谱数据和去混响网络,确定去混响处理后的目标音频帧的音频数据。采用本申请,考虑到了目标音频帧中产生的混响与参考音频帧之间的相关性,综合考虑参考音频帧和目标音频帧,来对目标音频帧实现较为精确的去混响处理,提高了去混响处理的准确性。CN114283827ACN114283827A权利要求书1/3页1.一种音频去混响方法,其特征在于,所述方法包括:根据预设的扩展帧数,在目标音频中,确定目标音频帧对应的扩展音频段;将所述扩展音频段中每个音频帧的频谱数据,输入时序注意力网络,得到所述扩展音频段中每个参考音频帧的频谱数据对应的权重值,其中,所述参考音频帧为所述扩展音频段中除了所述目标音频帧之外的音频帧;将每个参考音频帧的频谱数据分别与对应的权重值相乘,得到每个参考音频帧的调整后的频谱数据;根据所述每个参考音频帧的调整后的频谱数据、所述目标音频帧的频谱数据和去混响网络,确定去混响处理后的目标音频帧的音频数据。2.根据权利要求1所述的方法,其特征在于,所述根据预设的扩展帧数,在目标音频中,确定目标音频帧对应的扩展音频段,包括:在所述目标音频中,获取数目等于预设的扩展帧数的多个连续的音频帧,得到扩展音频段,其中,所述扩展音频段中包含所述目标音频帧。3.根据权利要求1所述的方法,其特征在于,所述将所述扩展音频段中每个音频帧的频谱数据,输入时序注意力网络,得到所述扩展音频段中每个参考音频帧的频谱数据对应的权重值,包括:对所述扩展音频段中每个音频帧的频谱数据进行特征提取,得到所述扩展音频段中每个音频帧的频谱数据对应的频谱特征向量;将所述扩展音频段中每个参考音频帧对应的频谱特征向量与所述目标音频帧对应的频谱特征向量之间的相似度,确定为所述每个参考音频帧与所述目标音频帧之间的相似度;对所述每个参考音频帧与所述目标音频帧之间的相似度进行归一化处理,将归一化处理后的每个参考音频帧与所述目标音频帧之间的相似度,确定为每个参考音频帧的频谱数据对应的权重值。4.根据权利要求1所述的方法,其特征在于,所述将所述扩展音频段中每个音频帧的频谱数据,输入时序注意力网络,得到所述扩展音频段中每个参考音频帧的频谱数据对应的权重值,包括:根据多个预设频率范围,分别对所述扩展音频段中每个音频帧的频谱数据进行分段处理,得到所述扩展音频段中每个音频帧的频谱数据对应的多个分段频谱数据;分别对所述扩展音频段中每个音频帧的频谱数据对应的多个分段频谱数据进行特征提取,得到所述多个分段频谱数据对应的分段频谱特征向量;对于每个预设频率范围,将所述每个参考音频帧对应的分段频谱特征向量与所述目标音频帧对应的分段频谱特征向量之间的相似度,确定为在所述预设频率范围内的每个参考音频帧与目标音频帧之间的分段相似度;对于所述每个预设频率范围,对在所述预设频率范围内的每个参考音频帧与目标音频帧之间的分段相似度进行归一化处理,将归一化处理后的每个参考音频帧与所述目标音频帧之间的分段相似度,确定为每个参考音频帧的分段频谱数据对应的权重值。5.根据权利要求4所述的方法,其特征在于,所述将每个参考音频帧的频谱数据分别与对应的权重值相乘,得到每个参考音频帧的调整后的频谱数据,包括:2CN114283827A权利要求书2/3页对于所述每个预设频率范围,将所述每个参考音频帧的分段频谱数据分别与对应的权重值相乘,得到每个参考音频帧的调整后的分段频谱数据;根据所述每个参考音频段的分段频谱数据对应的预设频率范围,分别将每个参考音频帧对应的调整后的分段频谱数据合并,得到每个参考音频帧的调整后的频谱数据。6.根据权利要求1所述的方法,其特征在于,所述根据所述每个参考音频帧的调整后