一种基于FHGAN的高保真语音增强模型及其应用-豆柴文库

一种基于FHGAN的高保真语音增强模型及其应用.pdf

2023-07-21

10金币

1.5MB

18页

玄静****写意

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115050379A(43)申请公布日2022.09.13(21)申请号202210454133.0(22)申请日2022.04.24(71)申请人华侨大学地址362000福建省泉州市城华北路269号华侨大学(72)发明人李平柳培忠徐峰于书杭洪雪梅(74)专利代理机构泉州市文华专利代理有限公司35205专利代理师陈雪莹(51)Int.Cl.G10L21/02(2013.01)G10L25/27(2013.01)权利要求书3页说明书10页附图4页(54)发明名称一种基于FHGAN的高保真语音增强模型及其应用(57)摘要本发明提供一种基于FHGAN的高保真语音增强模型及其应用，高保真语音增强模型是将端到端的FFTNet模型与生成对抗网络结构相结合，添加PFPLoss引导生成器建模，利用HiFi‑GAN多尺度对抗判别器，并与SE‑FFTNet生成器匹配，在时域和频域上提取深度特征匹配损失，结合适用的目标函数在生成对抗网络机制下平衡学习，得到的FHGAN模型即为所述高保真语音增强模型。本发明在基线模型SE‑FFTNet、HiFi‑GAN的基础上提出FHGAN网络，能够可大大降低模型的计算复杂度、有效区分噪声和干净语音，还原增强语音信号感知细节，可确保语音信号信号完整性。CN115050379ACN115050379A权利要求书1/3页1.一种基于FHGAN的高保真语音增强模型，其特征在于：将端到端的FFTNet模型与生成对抗网络结构相结合，添加PFPLoss引导生成器建模，利用HiFi‑GAN多尺度对抗判别器，并与SE‑FFTNet生成器匹配，在时域和频域上提取深度特征匹配损失，结合适用的目标函数在生成对抗网络机制下平衡学习，得到的FHGAN模型即为所述高保真语音增强模型。2.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型，其特征在于：所述FHGAN模型采用膨胀率减小的扩张卷积结构。3.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型，其特征在于：所述FFTNet模型采用膨胀率减小的扩张卷积结构，且所述FFTNet模型具有三个FFTNet层，合成音频波形序列是基于上一个采样值样本和一个辅助条件，一次生成一个波形采样点，具体过程是：假设给定带噪语音序列x＝(x0,x1,...,xN‑1)，N为序列长度，通过FFT得到x的第j个频率分量fj，表示如下：根据式(1)，若将f(n,N)看作Conv1×1，则每个FFTNet层可被看作是将输入分为两半分别执行Conv1×1再相加，FFTNet层采用ReLU代替门控激活结构以降低计算复杂度，表示如下：n式中，wl和wr分别表示左块xl和右块xr权重，堆叠n层对应输入大小为2，当M＞N时，FFTNet层采用零填充，将辅助条件向量h用Conv1×1变换后加入z，表示如下：式中，vl和vr分别表示左条件块hl和右条件块hr权重。4.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型，其特征在于：所述改进的HiFi‑GAN多尺度对抗判别器包括HiFi‑GAN的多尺度判别器架构和Log‑Mel谱图判别器；所述多尺度判别器架构由三个不同采样率输入的波形判别器组成，用于不同频率范围的识别；每个所述波形判别器由一个Conv1d层，堆叠四个Group_Conv1d层，再接两个Conv1d层组成，卷积层层间接LeakyReLU激活；每个所述波形判别器结构相同但权重不共享，输出实值分数；2CN115050379A权利要求书2/3页所述Log‑Mel谱图判别器用于锐化增强语音频谱，通过4个Conv2d后接实例标准化层IN，融合实例标准化层IN输出与未接Sigmoid激活的Featuremaps，再接一个Conv2d和AvgPool()输出组成。5.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型，其特征在于：所述SE‑FFTNet生成器采用初始宽幅的膨胀率减小的扩张卷积结构，且所述SE‑FFTNet生成器的非因果关系描述为：Gθ(xt‑l,...,xt‑1,xt,xt+1,...,xt+r)→y式(4)；式中，xt‑l，xt，xt+r分别表示过去、当前和未来样本数据。6.根据权利要求1所述的一种基于FHGAN的高保真语音增强模型，其特征在于：所述目标函数包括：A.音素强化感知损失函数PFP给定带噪语音信号x，增强语音信号s和对应的纯净语音信号y，采用FARSTS.fairseq库集成的预训练模型wev2veclarge编码器提取512维语音特征向量，预训练数据集为Librispeech，Wenc为7层因果卷积，后接BN层和RELU激活，卷积核大小分别为[10,8,4,4,4,1,1]，步长分别为[5,4,2,2,2,1

相关资料

一种基于FHGAN的高保真语音增强模型及其应用.pdf

本发明提供一种基于FHGAN的高保真语音增强模型及其应用，高保真语音增强模型是将端到端的FFTNet模型与生成对抗网络结构相结合，添加PFPLoss引导生成器建模，利用HiFi‑GAN多尺度对抗判别器，并与SE‑FFTNet生成器匹配，在时域和频域上提取深度特征匹配损失，结合适用的目标函数在生成对抗网络机制下平衡学习，得到的FHGAN模型即为所述高保真语音增强模型。本发明在基线模型SE‑FFTNet、HiFi‑GAN的基础上提出FHGAN网络，能够可大大降低模型的计算复杂度、有效区分噪声和干净语音，还原增

2023-07-21

1.5MB

高保真语音装置.pdf

本发明提供一种语音保真装置，包括主话筒、声源话筒及处理电路，主话筒用以接收语音并产生主信号；声源话筒用以接收来自用户声源的振动并产生声源信号；处理电路用以接收所述主信号及所述声源信号，将两者相加并进行衰变后得到保真信号，由此实现高传真的语音播放。

2023-06-10

1MB

语音增强模型生成方法和装置、语音增强方法和装置.pdf

本申请公开了一种语音增强模型生成方法和装置，涉及语音技术、计算机视觉、深度学习技术领域。该方法的一个具体实施方式包括：获取样本语音信号的样本时频域谱图集，样本时频域谱图集包括至少一个样本时频域谱图；获取预先建立的深度神经网络，深度神经网络包括：平滑模块、网络模块，平滑模块用于对输入的图像进行平滑处理，得到平滑特征图；执行以下训练步骤：从样本时频域谱图集中选取样本时频域谱图，并将选取的样本时频域谱图以及与选取的样本时频域谱图对应的平滑特征图同时输入网络模块；响应于确定深度神经网络满足训练完成条件，则将深度神

2023-06-14

755KB

语音增强模型训练方法、语音增强方法、相关设备及介质.pdf

本公开关于一种语音增强模型训练方法、语音增强方法、相关设备及介质。训练方法包括：基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音

2023-07-24

1MB

语音增强模型的构建方法及系统、语音增强方法及系统.pdf

本发明公开一种语音增强模型的构建方法及系统，还公开一种利用所构建的语音增强模型实现的语音增强方法及系统，其中构建方法包括基于相对应的纯净语音和带噪语音迭代训练语音增强网络的迭代训练步骤，具体为：将带噪语音输入至所述语音增强网络，由所述语音增强网络输出相应的估计语音；计算相对应的纯净语音和估计语音之间的幅度平方相干度；计算所述估计语音的能量谱密度数据；获取预设的听觉滤波器，基于所述幅度平方相干度、所述能量谱密度数据和所述听觉滤波器计算所述估计语音的语音清晰度；基于所述语音清晰度更新所述语音增强网络。本申请基

2024-01-09

709KB