预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113936681A(43)申请公布日2022.01.14(21)申请号202111192259.7G06N3/04(2006.01)(22)申请日2021.10.13G06N3/08(2006.01)(71)申请人东南大学地址211102江苏省南京市江宁区东南大学路2号(72)发明人周琳陈惜金吴超燕钟秋月(74)专利代理机构南京瑞弘专利商标事务所(普通合伙)32249代理人孙建朋(51)Int.Cl.G10L21/0208(2013.01)G10L21/0264(2013.01)G10L25/30(2013.01)G06F17/16(2006.01)G06K9/62(2022.01)权利要求书3页说明书8页附图1页(54)发明名称一种基于掩膜映射和混合空洞卷积网络的语音增强方法(57)摘要本发明公开了一种基于掩膜映射和混合空洞卷积网络的语音增强方法。本方法在训练阶段,预处理后的含噪语音信号进行短时傅里叶变换,得到对数功率谱,同时计算理想比值掩膜。将若干帧的对数功率谱组成二维对数功率图谱,作为混合空洞卷积网络的输入特征,将对应帧的理想比值掩膜组成二维理想比值掩膜矩阵,作为训练目标,对混合空洞卷积网络进行训练,得到混合空洞卷积网络回归器;测试过程中,利用训练好的混合空洞卷积网络回归器,将含噪测试语音的二维对数功率图谱映射为二维估计比值掩膜矩阵,结合含噪语音的对数功率谱和相位信息,进行逆变换得到重构的语音信号,实现语音增强。本发明提高了语音的感知质量,且算法兼具鲁棒性与泛化性。CN113936681ACN113936681A权利要求书1/3页1.一种基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,包括以下步骤:步骤1、在纯净语音信号中加入不同类型、不同信噪比的噪声,得到含噪的训练语音信号;步骤2、对步骤1得到的含噪训练语音信号进行预处理,包括归一化、分帧、加窗,得到分帧后的含噪语音信号;步骤3、对步骤2的各帧语音信号进行短时傅里叶变换,提取各帧含噪语音信号的对数功率谱,将若干帧对数功率谱组成二维对数功率图谱,同时根据纯净语音的对数功率谱和噪声的对数功率谱,计算理想比值掩膜,将若干帧的理想比值掩膜组成二维理想比值掩膜矩阵;步骤4、将步骤3得到的二维对数功率图谱,作为混合空洞卷积网络的输入特征,将对应帧的二维理想比值掩膜矩阵,作为训练目标,基于二维理想比值掩膜矩阵和网络输出的实际二维估计比值掩膜矩阵之间的损失函数对网络权重的偏导,训练混合空洞卷积网络;步骤5、对不同声学环境下的含噪测试语音信号进行预处理,并计算各帧语音信号的短时傅里叶变换,提取各帧语音信号的对数功率谱和相位谱,并将若干帧对数功率谱组成二维对数功率图谱;步骤6、将步骤5的二维对数功率图谱,作为步骤4训练好的混合空洞卷积网络的输入特征参数,计算二维估计比值掩膜矩阵;步骤7、将步骤6得到的二维估计比值掩膜矩阵和步骤5的各帧语音信号对数功率谱进行相乘,得到修正后的对数功率谱,并结合步骤5的各帧相位谱,进行短时逆傅里叶变换,得到增强后的时域语音信号。2.根据权利要求1所述的基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,所述步骤1中的语音信号加入噪声的计算公式为:d(n)=s(n)+v(n)其中,d(n)表示含噪语音信号,s(n)为纯净的单声道语音信号,v(n)表示指定信噪比的噪声信号,n表示样本点序号。3.根据权利要求2所述的基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征在于,所述步骤2和步骤5中的预处理具体包含:归一化方法为:其中,d(n)为含噪语音信号,dmax为d(n)幅度绝对值的最大值,x(n)为归一化后的语音信号;分帧方法为:采用预设分帧长度和帧移,将x(n)划分为多个单帧信号x(k·L+m),0≤k<K,0≤m<M,其中,k为帧序号,K为总帧数,m表示一帧内的采样序号,M为帧长,L为帧移;加窗方法为:x(k,m)=wH(m)x(k·L+m)其中x(k,m)为分帧加窗后的第k帧语音信号,wH(m)为窗函数。4.根据权利要求3所述的基于掩膜映射和混合空洞卷积网络的语音增强方法,其特征2CN113936681A权利要求书2/3页在于,所述步骤3中的对数功率谱和理想比值掩膜计算具体包括:首先计算分帧后第k帧语音信号x(k,m)的短时傅里叶变换:其中,f表示傅里叶变换的频点序号;频谱X(k,f)的幅度谱进行对数运算,得到对数功率谱Xs(k,f):2Xs(k,f)=10log10[|X(k,f)|]每一帧、每一个频点对应的理想比值掩膜的计算如下:其中,S(k,f)表示纯净语音信号在预处理、短时傅立叶变换后的频谱;V(k,f)表示噪声信号在预处理、短时傅立叶变换后的频谱,可调