预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115050379A(43)申请公布日2022.09.13(21)申请号202210454133.0(22)申请日2022.04.24(71)申请人华侨大学地址362000福建省泉州市城华北路269号华侨大学(72)发明人李平柳培忠徐峰于书杭洪雪梅(74)专利代理机构泉州市文华专利代理有限公司35205专利代理师陈雪莹(51)Int.Cl.G10L21/02(2013.01)G10L25/27(2013.01)权利要求书3页说明书10页附图4页(54)发明名称一种基于FHGAN的高保真语音增强模型及其应用(57)摘要本发明提供一种基于FHGAN的高保真语音增强模型及其应用,高保真语音增强模型是将端到端的FFTNet模型与生成对抗网络结构相结合,添加PFPLoss引导生成器建模,利用HiFi‑GAN多尺度对抗判别器,并与SE‑FFTNet生成器匹配,在时域和频域上提取深度特征匹配损失,结合适用的目标函数在生成对抗网络机制下平衡学习,得到的FHGAN模型即为所述高保真语音增强模型。本发明在基线模型SE‑FFTNet、HiFi‑GAN的基础上提出FHGAN网络,能够可大大降低模型的计算复杂度、有效区分噪声和干净语音,还原增强语音信号感知细节,可确保语音信号信号完整性。CN115050379ACN115050379A权利要求书1/3页1.一种基于FHGAN的高保真语音增强模型,其特征在于:将端到端的FFTNet模型与生成对抗网络结构相结合,添加PFPLoss引导生成器建模,利用HiFi‑GAN多尺度对抗判别器,并与SE‑FFTNet生成器匹配,在时域和频域上提取深度特征匹配损失,结合适用的目标函数在生成对抗网络机制下平衡学习,得到的FHGAN模型即为所述高保真语音增强模型。2.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型,其特征在于:所述FHGAN模型采用膨胀率减小的扩张卷积结构。3.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型,其特征在于:所述FFTNet模型采用膨胀率减小的扩张卷积结构,且所述FFTNet模型具有三个FFTNet层,合成音频波形序列是基于上一个采样值样本和一个辅助条件,一次生成一个波形采样点,具体过程是:假设给定带噪语音序列x=(x0,x1,...,xN‑1),N为序列长度,通过FFT得到x的第j个频率分量fj,表示如下:根据式(1),若将f(n,N)看作Conv1×1,则每个FFTNet层可被看作是将输入分为两半分别执行Conv1×1再相加,FFTNet层采用ReLU代替门控激活结构以降低计算复杂度,表示如下:n式中,wl和wr分别表示左块xl和右块xr权重,堆叠n层对应输入大小为2,当M>N时,FFTNet层采用零填充,将辅助条件向量h用Conv1×1变换后加入z,表示如下:式中,vl和vr分别表示左条件块hl和右条件块hr权重。4.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型,其特征在于:所述改进的HiFi‑GAN多尺度对抗判别器包括HiFi‑GAN的多尺度判别器架构和Log‑Mel谱图判别器;所述多尺度判别器架构由三个不同采样率输入的波形判别器组成,用于不同频率范围的识别;每个所述波形判别器由一个Conv1d层,堆叠四个Group_Conv1d层,再接两个Conv1d层组成,卷积层层间接LeakyReLU激活;每个所述波形判别器结构相同但权重不共享,输出实值分数;2CN115050379A权利要求书2/3页所述Log‑Mel谱图判别器用于锐化增强语音频谱,通过4个Conv2d后接实例标准化层IN,融合实例标准化层IN输出与未接Sigmoid激活的Featuremaps,再接一个Conv2d和AvgPool()输出组成。5.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型,其特征在于:所述SE‑FFTNet生成器采用初始宽幅的膨胀率减小的扩张卷积结构,且所述SE‑FFTNet生成器的非因果关系描述为:Gθ(xt‑l,...,xt‑1,xt,xt+1,...,xt+r)→y式(4);式中,xt‑l,xt,xt+r分别表示过去、当前和未来样本数据。6.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型,其特征在于:所述目标函数包括:A.音素强化感知损失函数PFP给定带噪语音信号x,增强语音信号s和对应的纯净语音信号y,采用FARSTS.fairseq库集成的预训练模型wev2veclarge编码器提取512维语音特征向量,预训练数据集为Librispeech,Wenc为7层因果卷积,后接BN层和RELU激活,卷积核大小分别为[10,8,4,4,4,1,1],步长分别为[5,4,2,2,2,1