预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112802491A(43)申请公布日2021.05.14(21)申请号202110167844.5(22)申请日2021.02.07(71)申请人武汉大学地址430072湖北省武汉市武昌区珞珈山武汉大学(72)发明人高戈尹文兵陈怡杨玉红曾邦王霄(74)专利代理机构武汉科皓知识产权代理事务所(特殊普通合伙)42222代理人许莲英(51)Int.Cl.G10L21/0224(2013.01)G10L21/0232(2013.01)G10L25/30(2013.01)G10L19/02(2013.01)权利要求书3页说明书8页附图4页(54)发明名称一种基于时频域生成对抗网络的语音增强方法(57)摘要本发明公开了一种基于时频域生成对抗网络的语音增强方法,在传统的基于时频域生成对抗网络的语音增强方法的基础上,通过增加一个频域鉴别器,使语音增强模型能够同时学习到输入语音的时域特征和频域特征,以提高模型的性能。其中,时域鉴别器直接判别生成器输出的增强语音;频域鉴别器则对增强语音做短时傅里叶变换后得到频域特征进行判别。模型训练时,时域和频域鉴别器同时监督生成器,使生成器能够同时学习到语音和噪声的时域和频域特征。并且,为了保留原始语音的底层信息和防止生成器产生过拟合,在模型的损失函数中加入频域约束项。本发明方法增强性能更好,且其能处理的噪声种类更多、适用的场景更广。CN112802491ACN112802491A权利要求书1/3页1.一种基于时频域生成对抗网络的语音增强方法,其特征在于,包括以下步骤:步骤1:构建生成器网络;步骤2,构建鉴别器网络;步骤2所述鉴别器网络由时域鉴别器、频域鉴别器并行构成;所述时域鉴别器由输入层,隐藏层和输出层组成;所述时域鉴别器输入层采用全连接神经网络层(DNN),其输入为干净语音x和生成器输出的增强语音xe,输出为ein维的干净语音时域特征y和生成器输出语音时域特征ye;所述时域鉴别器的隐藏层由n1层一维跨步卷积层级联构成;其中,前n1‑1层隐藏层的卷积核大小均为k1,卷积步长均为s1,输入通道数均为c1;每一层一维卷积层的激活函数都采用LeakyReLU,具体如下:其中,参数αi为泄露参数,设置为0.3;xi为第i个神经元的值;yi为第i个神经元的输出;第n1层隐藏层的卷积核为k2,卷积步长均为s2,输入通道数均为c2的一维卷积层,其输入为Tn维的特征向量,输出为Tn+1维的特征向量;所述时域鉴别器的输出层采用softmax分类层,实现鉴别器的分类与判别功能,其输入为Tn+1维的特征向量,输出为概率PT;其中,分类层采用softmax分类器,将特征提取网络的输出表征为不同类别之间的相对概率,进行最终的类别预测,如下所示:其中,i表示第i个类别,N表示类别总数,表示第i个类别的概率值,表示经softmax处理之后第i个类别的概率值;为了防止网络训练时出现训练不稳定或不收敛的情况,所述频域鉴别器与所述时域鉴别器的网络结构完全相同;不同的是,频域鉴别器的输入为干净语音和生成器输出的增强语音分别进行短时傅里叶变换得到的频域幅度谱X和Xe,输出为0到1之间的分类概率PF;步骤3,构建生成对抗网络训练集;所述步骤4具体为:步骤4.1,将训练集的语音,训练集的语音包括干净原始语音和带噪原始语音,训练集的语音经分帧、采样得到干净语音x和带噪语音xc;其中,分帧的帧长为N、帧移为Mms,采样率为S;步骤4.2,将训练集的语音做短时傅里叶变换(STFT)得到干净语音和带噪语音的频域幅度谱X和Xc;其中,STFT采用的窗函数为汉明窗,窗长为N,采样率为S;标准的短时傅里叶变换,具体如下:2CN112802491A权利要求书2/3页jw其中,n为时间,x(n)为时域信号,w(n)为窗函数;Xn(e)为x(n)对应的频域幅度谱;步骤4.3,预训练鉴别器网络;进一步的,具体的实施方案如下:步骤4.3.1,预训练时域鉴别器D1,将干净语音x和带噪语音xc输入时域鉴别器,使用公式5所示的损失函数和RMSProp优化器来训练网络模型;其中,x为干净语音,xc为带噪语音;D1(x)为输入为x时,时域鉴别器的输出;D1(xc)为输入为xc时,时域鉴别器的输出;步骤4.3.2,预训练频域鉴别器D2,将干净语音和带噪语音的频域幅度谱X和Xc输入频域鉴别器,使用如下所示的损失函数和RMSProp优化器来训练网络模型;其中,X为干净语音的频域幅度谱,Xc为带噪语音的频域幅度谱;D2(X)为输入为X时,频域鉴别器的输出;D2(Xc)为输入为Xc时,频域鉴别器的输出;步骤4.4,训练生成器网络G,将带噪语音xc、带噪语音频域幅度谱Xc和随机噪声z输入生成器,利用预训练好的两个鉴别