基于加权语音损失的语音增强神经网络训练方法及装置-豆柴文库

基于加权语音损失的语音增强神经网络训练方法及装置.pdf

2023-07-24

10金币

560KB

16页

是你****深呀

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113921030A(43)申请公布日2022.01.11(21)申请号202111483345.3(22)申请日2021.12.07(71)申请人江苏清微智能科技有限公司地址211100江苏省南京市江宁区麒麟科技创新园创研路266号人工智能产业园8号楼3层(72)发明人苏家雨王博欧阳鹏(74)专利代理机构北京索睿邦知识产权代理有限公司11679代理人李根(51)Int.Cl.G10L21/0208(2013.01)G10L25/30(2013.01)G06N3/08(2006.01)权利要求书2页说明书9页附图4页(54)发明名称基于加权语音损失的语音增强神经网络训练方法及装置(57)摘要本发明公开了基于加权语音损失的语音增强神经网络训练方法及装置其中，方法包括：提取训练样本中带噪语音的对数功率谱特征；将对数功率谱特征输入初始语音增强神经网络得到预估增益；基于预估增益和噪声，计算第一损失值；基于预估增益和目标语音帧，计算第二损失值；获取第一损失值和第二损失值的权值，并进行加权计算得到最终损失值；在最终损失值收敛的情况下，将初始语音增强神经网络作为用于语音增强的神经网络。本发明实施例提供的方案，使用GRU网络来预测语音增强增益，结合语音活动检测来获取加权语音失真损失，在实现去除噪声的同时减小语音失真。CN113921030ACN113921030A权利要求书1/2页1.基于加权语音损失的语音增强神经网络训练方法，其特征在于，所述方法包括：提取训练样本中带噪语音的对数功率谱特征，所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声；将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益；基于所述预估增益和噪声，计算表征所述带噪语音噪声抑制效果的第一损失值；基于所述预估增益和目标语音帧，计算表征所述带噪语音失真情况的第二损失值，所述目标语音帧为所述干净语音和噪声中存在语音活动的帧；获取所述第一损失值和第二损失值的权值，并基于所获取的权值进行加权计算得到最终损失值；在所述最终损失值不收敛的情况下，基于所述最终损失值调整所述初始语音增强神经网络，并返回将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益的步骤；在所述最终损失值收敛的情况下，将所述初始语音增强神经网络作为用于语音增强的神经网络。2.如权利要求1所述的方法，其特征在于，基于所述预估增益和噪声，计算表征所述带噪语音噪声抑制效果的第一损失值的步骤，包括：基于所述预估增益和噪声，通过以下表达式计算表征所述带噪语音噪声抑制效果的第一损失值：其中，表示所述第一损失值，表示所述预估增益，表示所述噪声，表示均方误差运算函数。3.如权利要求1所述的方法，其特征在于，基于所述预估增益和目标语音帧，计算表征所述带噪语音失真情况的第二损失值的步骤，包括：基于所述预估增益和目标语音帧，通过以下表达式计算表征所述带噪语音失真情况的第二损失值：其中，表示所述第二损失值，表示所述预估增益，表示所述噪声，表示所述干净语音，下标表示存在语音活动的帧，表示均方误差运算函数。4.如权利要求1所述的方法，其特征在于，确定所述目标语音帧的步骤，包括：基于当前帧在目标频段的频域表示，计算所述当前帧的能量和；在计算得到的能量和大于预定阈值的情况下记为0，小于预定阈值的情况下记为1，平滑所述当前帧以及所述当前帧之前预定数量帧的能量和与预定阈值的比较结果，并根据比较结果确定当前帧是否为语音帧。5.如权利要求1所述的方法，其特征在于，获取所述第一损失值和第二损失值的权值的步骤，包括：基于信噪比通过以下表达式计算所述第二损失值的权值：2CN113921030A权利要求书2/2页其中，表示信噪比，为一个设定的常数；基于所述第一损失值的权值与所述第二损失值的权值之和为1的运算规则，确定所述第一损失值的权值。6.基于加权语音损失的语音增强神经网络训练装置，其特征在于，所述装置包括：特征提取模块，用于提取训练样本中带噪语音的对数功率谱特征，所述训练样本中包括所述带噪语音以及用于构成所述带噪语音的干净语音和噪声；语音增强神经网络模块，用于将所提取的对数功率谱特征输入初始语音增强神经网络得到所述带噪语音的预估增益；损失值计算模块，用于基于所述预估增益和噪声，计算表征所述带噪语音噪声抑制效果的第一损失值；基于所述预估增益和目标语音帧，计算表征所述带噪语音失真情况的第二损失值，所述目标语音帧为所述干净语音和噪声中存在语音活动的帧；获取所述第一损失值和第二损失值的权值，并基于所获取的权值进行加权计算得到最终损失值；神经网络调整模块，用于在所述最终损失值不收敛的情况下，基于所述最终损失值调整所述初始语音增强神

相关资料

基于加权语音损失的语音增强神经网络训练方法及装置.pdf

本发明公开了基于加权语音损失的语音增强神经网络训练方法及装置其中，方法包括：提取训练样本中带噪语音的对数功率谱特征；将对数功率谱特征输入初始语音增强神经网络得到预估增益；基于预估增益和噪声，计算第一损失值；基于预估增益和目标语音帧，计算第二损失值；获取第一损失值和第二损失值的权值，并进行加权计算得到最终损失值；在最终损失值收敛的情况下，将初始语音增强神经网络作为用于语音增强的神经网络。本发明实施例提供的方案，使用GRU网络来预测语音增强增益，结合语音活动检测来获取加权语音失真损失，在实现去除噪声的同时减小

2023-07-24

560KB

语音增强模型的训练方法和装置及语音增强方法和装置.pdf

本申请涉及语音处理技术领域，提供了一种语音增强模型的训练方法和装置及语音增强方法和装置。所述语音增强模型的训练方法包括：获取语音训练集；其中，语音训练集中包括含噪语音样本和纯净语音样本；获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果；根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。采用本方法能够提高语音增强模型的性能，进而提升语音增强的效果。

2023-07-25

1.3MB

基于AD神经网络的语音增强的综述报告.docx

基于AD神经网络的语音增强的综述报告语音增强是指通过去除噪声、提高语音信号质量等手段，使得语音信号更加清晰、易于识别的技术。近年来，人们越来越意识到语音增强在智能语音交互、语音识别、听力辅助等领域的重要性。其中，基于AD神经网络的语音增强技术受到了广泛关注。一、AD神经网络介绍AD神经网络，即AutoencoderDenoiser，是指通过一个自编码器将原始语音信号输入，并输出清晰、无噪声的修复语音信号。它通过深度学习来进行语音增强，能够有效地降低语音噪声以提高语音质量。在AD网络中，自编码器主要由编码器

2024-09-19

10KB

基于神经网络的语音增强方法、装置及电子设备.pdf

本公开提供一种基于神经网络的语音增强方法、装置、存储介质及电子设备；涉及语音信号处理领域。所述方法包括：将原始语音信号进行时频变换得到原始语音信号的原始幅度谱；利用时间维卷积核对原始幅度谱进行特征提取，得到时域平滑特征图；利用频率维卷积核对原始幅度谱进行特征提取，得到频域平滑特征图；对原始幅度谱、时域平滑特征图和频域平滑特征图进行组合特征提取，得到原始语音信号的增强幅度谱；对增强幅度谱进行时频逆变换得到增强语音信号。本公开通过对原始语音信号提取时频平滑特征，可以在时间轴和频率轴上实现双轴降噪，并结合深度神

2023-06-14

1.1MB

语音识别、基于语音的联合处理模型训练方法、装置.pdf

本公开提供的语音识别方法，可以根据语音识别结果为目标对象进行属性识别，后续可以基于目标对象的分类结果进行个性化服务配置，在机器人与用户的语音交流中，准确的通过语音信号来确定用户的身份，对于更人性化的人机交互有着重要的作用。同样，如果能够获取到用户的个性信息也非常重要，机器人相应就可以做出有针对性的回答或者建议。本公开提供的方法适用于任何需要进行人机语音交互的场景，可以为交互中提供更多有用的信息，使得交互更智能。本公开还提供了基于语音的联合处理模型的训练方法、装置、计算机设备、计算机可读存储介质以及计算机程

2023-07-24

938KB