语音增强模型生成方法和装置、语音增强方法和装置-豆柴文库

语音增强模型生成方法和装置、语音增强方法和装置.pdf

2023-06-14

10金币

755KB

19页

一吃****成益

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113823312A(43)申请公布日2021.12.21(21)申请号202110188632.5G06N3/04(2006.01)(22)申请日2021.02.19G06N3/08(2006.01)(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人陈泽华吴俊仪蔡玉玉雪巍杨帆丁国宏何晓冬(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G10L21/0224(2013.01)G10L21/0232(2013.01)G10L25/30(2013.01)权利要求书2页说明书12页附图4页(54)发明名称语音增强模型生成方法和装置、语音增强方法和装置(57)摘要本申请公开了一种语音增强模型生成方法和装置，涉及语音技术、计算机视觉、深度学习技术领域。该方法的一个具体实施方式包括：获取样本语音信号的样本时频域谱图集，样本时频域谱图集包括至少一个样本时频域谱图；获取预先建立的深度神经网络，深度神经网络包括：平滑模块、网络模块，平滑模块用于对输入的图像进行平滑处理，得到平滑特征图；执行以下训练步骤：从样本时频域谱图集中选取样本时频域谱图，并将选取的样本时频域谱图以及与选取的样本时频域谱图对应的平滑特征图同时输入网络模块；响应于确定深度神经网络满足训练完成条件，则将深度神经网络作为语音增强模型。该实施方式优化了训练得到的语音增强模型的语音增强效果。CN113823312ACN113823312A权利要求书1/2页1.一种语音增强模型生成方法，所述方法包括：获取样本语音信号的样本时频域谱图集，所述样本时频域谱图集包括至少一个样本时频域谱图；获取预先建立的深度神经网络，所述深度神经网络包括：平滑模块、网络模块，所述平滑模块用于对输入的图像进行平滑处理，得到所述输入的图像对应的平滑特征图；执行以下训练步骤：从所述样本时频域谱图集中选取样本时频域谱图，并将选取的样本时频域谱图以及与所述选取的样本时频域谱图对应的平滑特征图叠加在一起共同输入所述网络模块，得到所述网络模块输出的预估时频域谱图；响应于确定所述深度神经网络满足训练完成条件，则将所述深度神经网络作为语音增强模型。2.根据权利要求1所述的方法，其中，所述平滑模块包括：卷积模块，所述卷积模块采用平滑算法作为卷积核，所述平滑算法用于将所述输入的图像中设定个长度内的图块与各图块对应的权重相乘；所述权重由平滑因子确定，所述平滑因子的值固定。3.根据权利要求1所述的方法，其中，所述平滑模块包括：卷积模块，所述卷积模块采用平滑算法作为卷积核，所述平滑算法用于将所述输入的图像中设定个长度内的图块与各图块对应的权重相乘；所述权重由平滑因子确定，所述平滑因子随所述深度神经网络训练而进行自学习，直至所述深度神经网络满足所述训练完成条件为止。4.根据权利要求2所述的方法，其中，所述卷积模块为多个，多个卷积模块并联连接，每个卷积模块的平滑因子的值不同。5.根据权利要求3所述的方法，其中，所述平滑因子的自学习包括以下步骤：初始化所述平滑因子的值；基于误差反向传播算法以及所述深度神经网络的损失函数，在所述深度神经网络每次迭代时，更新所述平滑因子的值。6.一种语音增强方法，所述方法包括：获取目标语音信号的目标时频域谱图；将所述目标时频域谱图输入采用如权利要求1‑5中任一项所述的方法生成的语音增强模型中，得到所述语音增强模型生成的预测语音信号的时频域谱图。7.一种语音增强模型生成装置，所述装置包括：样本获取单元，被配置成获取样本语音信号的样本时频域谱图集，所述样本时频域谱图集包括至少一个样本时频域谱图；网络获取单元，被配置成获取预先建立的深度神经网络，所述深度神经网络包括：平滑模块、网络模块，所述平滑模块用于对输入的图像进行平滑处理，得到所述输入的图像对应的平滑特征图；选取单元，被配置成从所述样本时频域谱图集中选取样本时频域谱图；输入单元，被配置成将选取的样本时频域谱图以及与所述选取的样本时频域谱图对应的平滑特征图叠加在一起共同输入所述网络模块，得到所述网络模块输出的预估时频域谱图；输出单元，被配置成响应于确定所述深度神经网络满足训练完成条件，则将所述深度2CN113823312A权利要求书2/2页神经网络作为语音增强模型。8.一种语音增强装置，所述装置包括：获取单元，被配置成获取目标语音信号的目标时频域谱图；生成单元，被配置成将所述目标时频域谱图输入采用如权利要求1‑5中任一项所述的方法生成的语音增强模型中，得到所述语音增强模型生成的预测语音信号的时频域谱图。9.一种电子设备，

相关资料

语音增强模型生成方法和装置、语音增强方法和装置.pdf

本申请公开了一种语音增强模型生成方法和装置，涉及语音技术、计算机视觉、深度学习技术领域。该方法的一个具体实施方式包括：获取样本语音信号的样本时频域谱图集，样本时频域谱图集包括至少一个样本时频域谱图；获取预先建立的深度神经网络，深度神经网络包括：平滑模块、网络模块，平滑模块用于对输入的图像进行平滑处理，得到平滑特征图；执行以下训练步骤：从样本时频域谱图集中选取样本时频域谱图，并将选取的样本时频域谱图以及与选取的样本时频域谱图对应的平滑特征图同时输入网络模块；响应于确定深度神经网络满足训练完成条件，则将深度神

2023-06-14

755KB

语音增强模型的训练方法和装置及语音增强方法和装置.pdf

本申请涉及语音处理技术领域，提供了一种语音增强模型的训练方法和装置及语音增强方法和装置。所述语音增强模型的训练方法包括：获取语音训练集；其中，语音训练集中包括含噪语音样本和纯净语音样本；获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果；根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。采用本方法能够提高语音增强模型的性能，进而提升语音增强的效果。

2023-07-25

1.3MB

语音转换模型生成方法和装置.pdf

本发明涉及语音转换模型生成方法和装置。提供了一种语音转换模型生成方法，该方法用于训练基于神经网络的语音转换模型，包括以下步骤：a.使用所述语音转换模型对原说话人语音进行转换；b.分别提取转换后的语音和目标说话人语音的音频特征；c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中，分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量；d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失；e.将所述损失反向传播到所述语音转换模型中，从而更新所述语音转换模型的参数；f.使用

2023-07-24

451KB

语音降噪模型的训练方法和装置及语音降噪方法和装置.pdf

本公开关于语音降噪模型的训练方法和装置及语音降噪方法和装置。训练方法包括：获取含噪语音信号样本，含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号与目标麦克风位置之间的距离；获取预设第一保留距离值以及目标降噪语音信号，目标降噪语音信号是通过基于每条原始语音信号的距离值以及预设第一保留距离值计算得到；将含噪语音信号样本的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的降噪语音信号的幅度谱；基于估计的降噪语音信号的幅度谱与目标降噪语音信号的幅

2023-07-24

938KB

语音增强方法、装置、设备、存储介质和程序产品.pdf

本申请涉及一种语音增强方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取目标语音数据并确定语音增强模型，语音增强模型包括第一增强模型和第二增强模型；将目标语音数据输入至第一增强模型，得到第一增强模型输出的说话者信息；根据目标语音数据、说话者信息以及第二增强模型，获取目标语音数据对应的增强语音数据。采用本方法能够提高语音质量。

2023-07-21

776KB