预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115273884A(43)申请公布日2022.11.01(21)申请号202210684643.7(22)申请日2022.06.17(71)申请人南京大学地址210046江苏省南京市栖霞区仙林大道163号申请人北京地平线信息技术有限公司(72)发明人侯仲舒胡沁雯卢晶朱长宝朱天一刘松(74)专利代理机构江苏法德东恒律师事务所32305专利代理师李媛媛(51)Int.Cl.G10L21/0232(2013.01)G10L25/30(2013.01)权利要求书1页说明书8页附图3页(54)发明名称基于频谱压缩和神经网络的多阶段全频带语音增强方法(57)摘要本发明公开了一种基于频谱压缩和神经网络的多阶段全频带语音增强方法。其步骤为:设计全频带语音频谱压缩曲线,使用设计的参数初始化MHA‑DPCRN的频谱压缩模块;合成模拟含噪混响语音;对模拟含噪混响语音和对应的带混响纯净语音分别做短时傅里叶变换得到两者的短时傅里叶谱;使用短时傅里叶谱训练MHA‑DPCRN模型权重;(5)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱;将含噪混响语音的短时傅里叶谱输入完成训练的模型,得到增强语音的短时傅里叶谱,并进行逆短时傅里叶变换得到增强语音的时域信号。本发明的方法能够在复杂噪声场景下对全频带语音进行较为彻底的噪声抑制,同时保留较好的语音音质。CN115273884ACN115273884A权利要求书1/1页1.基于频谱压缩和神经网络的多阶段全频带语音增强方法,其特征在于,该方法包括以下步骤:步骤1,设计全频带语音频谱压缩曲线,根据所述压缩曲线计算压缩模块参数;步骤2,使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;步骤3,对所述模拟含噪混响语音的数据和其对应的纯净混响语音数据分别做短时傅里叶变换得到两者的短时傅里叶谱;步骤4,构建MHA‑DPCRN模型,该模型由幅度谱增强网络MHAN和复数谱增强网络DPCRN级联组成;使用步骤1得到的压缩模块参数初始化MHA‑DPCRN的频谱压缩模块;使用步骤3得到的短时傅里叶谱训练所述MHA‑DPCRN模型权重;步骤5,对待增强的含噪混响语音信号做短时傅里叶变换得到短时傅里叶谱;步骤6,将步骤5获得的短时傅里叶谱输入步骤4完成训练的MHA‑DPCRN模型,输出增强语音的短时傅里叶谱;步骤7,对增强语音的短时傅里叶谱进行逆短时傅里叶变换得到增强语音的时域信号。2.根据权利要求1所述的基于频谱压缩和神经网络的多阶段全频带语音增强方法,其特征在于,所述步骤1中,频谱压缩曲线保持0kHz‑5kHz频带内各频点不变,对5kHz‑24kHz频带内频点进行对数形式的平滑压缩,设原频带和压缩后频带分别为f和fcmp,具体转换公式如下:3.根据权利要求1所述的基于频谱压缩和神经网络的多阶段全频带语音增强方法,其特征在于,所述步骤4中,幅度谱增强网络MHAN用于估计实数掩膜作用于含噪混响语音的短时傅里叶幅度谱提高语音信噪比,与之级联的复数谱增强网络DPCRN直接估计混响纯净语音的短时傅里叶复数谱达到更彻底的噪声抑制效果;在训练过程中,首先单独训练幅度谱增强网络MHAN,再将收敛的幅度谱增强网络MHAN与复数谱增强网络DPCRN级联后联合训练。4.根据权利要求1所述的基于频谱压缩和神经网络的多阶段全频带语音增强方法,其特征在于,所述步骤4中,复数谱增强网络DPCRN的编码器前加入实现频谱压缩的线性层,该线性层与幅度谱增强网络MHAN的首个线性层都使用设计好的压缩模块参数进行初始化;所述线性层对高频频段,即5kHz以上进行映射的参数设置为可训练,对低频频段,即5kHz以下进行映射的参数设置为不可训练。2CN115273884A说明书1/8页基于频谱压缩和神经网络的多阶段全频带语音增强方法技术领域[0001]本发明属于语音增强的领域,主要针对全频带语音的噪声抑制问题。背景技术[0002]根据语音的采样率,一般将语音分为窄带语音(8kHz)、宽带语音(16kHz)、超宽带语音(32kHz)和全频带语音(48kHz)。在日常的语音采集活动中往往存在背景噪声的干扰,它们可能来自于洗衣机、空调机、汽车鸣笛或施工工地等,这些干扰可能会造成语音的失真,既影响了语音的清晰度、可懂度,也会对后续的语音处理任务,如自动语音识别等,产生消极的影响。在最近几年,基于深度神经网络的噪声抑制模型不断地被提出,并在处理效果上取得了越来越优异的表现。目前大多数的神经网络模型主要用于处理宽带语音,这是因为宽带语音已经基本包含了人类语音中的主要能量和重要的谐波信息,它已经较好地保留了说话人的音色和完整语音信息。而随着人们对语音质量要求的进一步提升,全频带语音处理任务也愈加受到