预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114155872A(43)申请公布日2022.03.08(21)申请号202111545638.X(22)申请日2021.12.16(71)申请人云知声智能科技股份有限公司地址100096北京市海淀区西三旗建材城内1幢一层101号(72)发明人关海欣梁家恩(51)Int.Cl.G10L21/0224(2013.01)权利要求书2页说明书7页附图3页(54)发明名称单通道语音降噪方法、装置、电子设备和存储介质(57)摘要本申请涉及一种单通道语音降噪方法、装置、电子设备和存储介质,该方法包括:获取待降噪语音;提取待降噪语音的特征后输入预先训练好的模型中得到每一帧语音的掩膜值;将每一帧语音的掩膜值与每一帧语音的掩膜值对应的修正离散余弦变换相乘,再进行修正离散余弦反变换,得到降噪后的每一帧语音;重叠相加降噪后的每一帧语音得到降噪语音。本申请通过修正离散余弦变换替代当前FFT复数谱,相比FFT的优点为,其一,FFT是复数,神经网络训练工具目前都不支持复数,需要手动设计网络,模型往往复杂度很高;其二,FFT变换参数多,以512点FFT为例,变换后实部、虚部一共512个参数,而512点MDCT,变换后仅256点,输入、输出参数减半,使得降噪更简单。CN114155872ACN114155872A权利要求书1/2页1.一种单通道语音降噪方法,其特征在于,包括:获取待降噪语音;提取所述待降噪语音的特征后输入预先训练好的模型中得到每一帧语音的掩膜值;将所述每一帧语音的掩膜值与所述每一帧语音的掩膜值对应的修正离散余弦变换相乘,再进行修正离散余弦反变换,得到降噪后的每一帧语音;重叠相加所述降噪后的每一帧语音得到降噪语音。2.根据权利要求1所述的一种单通道语音降噪方法,其特征在于,所述提取所述待降噪语音的特征后输入预先训练好的模型中得到每一帧语音的掩膜值,包括:将所述待降噪语音分帧、加窗、修正离散余弦变换得到每一帧语音对应的修正离散余弦变换;将所述每一帧语音对应的修正离散余弦变换输入预先训练好的模型中得到每一帧语音的掩膜值。3.根据权利要求1所述的一种单通道语音降噪方法,其特征在于,所述预先训练好的模型的训练步骤如下:获取训练集;所述训练集包括多句干净语音数据和多种类型的多句噪音数据;所述多句干净语音数据和多种类型的多句噪音数据以不同的信噪比混合;提取所述训练集的特征;将所述训练集的特征输入网络模型进行训练,使用信号逼近的方法估计得到隐式掩膜矩阵;将所述隐式掩膜矩阵与训练集的特征中的噪音数据的修正离散余弦变换相乘,再进行修正离散余弦反变换,得到时域上的增强语音;将所述时域上的增强语音和目标语音使用损失函数进行误差回传,当损失不断变小直至收敛,得到所述预先训练好的模型。4.根据权利要求3所述的一种单通道语音降噪方法,其特征在于,所述提取所述训练数据的特征,包括:将训练数据的每一句语音进行分帧、加窗,使用修正离散余弦变换得到每句噪音数据的修正离散余弦变换和每句干净语音数据的修正离散余弦变换。5.根据权利要求3所述的一种单通道语音降噪方法,其特征在于,所述方法还包括:获取验证数据;使用所述验证数据在训练所述预先训练好的模型过程中监督模型但不参与误差回传;其中,所述验证数据包括多句干净语音数据和多种类型的多句噪音数据,所述多句干净语音数据和多种类型的多句噪音数据以不同的信噪比混合;所述验证数据与所述训练数据不同。6.根据权利要求3所述的一种单通道语音降噪方法,其特征在于,所述网络模型是卷积神经网络、长短时记忆网络以及全连接网络联合模型。7.根据权利要求3所述的一种单通道语音降噪方法,其特征在于,所述损失函数是SI‑SNR、SNR或MSE。8.一种单通道语音降噪装置,其特征在于,包括:获取模块:用于获取待降噪语音;2CN114155872A权利要求书2/2页提取模块:用于提取所述待降噪语音的特征后输入预先训练好的模型中得到每一帧语音的掩膜值;修正离散变换模块:用于将所述每一帧语音的掩膜值与所述每一帧语音的掩膜值对应的修正离散余弦变换相乘,再进行修正离散余弦反变换,得到降噪后的每一帧语音;重叠相加模块:用于重叠相加所述降噪后的每一帧语音得到降噪语音。9.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述一种单通道语音降噪方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述一种单通道语音降噪方法。3CN114155872A说明书1/7页单通道语音降噪方法、装置、电子设备和存储介质技术领域[0001]本申请涉及语音降噪技术领域,