预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113823312A(43)申请公布日2021.12.21(21)申请号202110188632.5G06N3/04(2006.01)(22)申请日2021.02.19G06N3/08(2006.01)(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人陈泽华吴俊仪蔡玉玉雪巍杨帆丁国宏何晓冬(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G10L21/0224(2013.01)G10L21/0232(2013.01)G10L25/30(2013.01)权利要求书2页说明书12页附图4页(54)发明名称语音增强模型生成方法和装置、语音增强方法和装置(57)摘要本申请公开了一种语音增强模型生成方法和装置,涉及语音技术、计算机视觉、深度学习技术领域。该方法的一个具体实施方式包括:获取样本语音信号的样本时频域谱图集,样本时频域谱图集包括至少一个样本时频域谱图;获取预先建立的深度神经网络,深度神经网络包括:平滑模块、网络模块,平滑模块用于对输入的图像进行平滑处理,得到平滑特征图;执行以下训练步骤:从样本时频域谱图集中选取样本时频域谱图,并将选取的样本时频域谱图以及与选取的样本时频域谱图对应的平滑特征图同时输入网络模块;响应于确定深度神经网络满足训练完成条件,则将深度神经网络作为语音增强模型。该实施方式优化了训练得到的语音增强模型的语音增强效果。CN113823312ACN113823312A权利要求书1/2页1.一种语音增强模型生成方法,所述方法包括:获取样本语音信号的样本时频域谱图集,所述样本时频域谱图集包括至少一个样本时频域谱图;获取预先建立的深度神经网络,所述深度神经网络包括:平滑模块、网络模块,所述平滑模块用于对输入的图像进行平滑处理,得到所述输入的图像对应的平滑特征图;执行以下训练步骤:从所述样本时频域谱图集中选取样本时频域谱图,并将选取的样本时频域谱图以及与所述选取的样本时频域谱图对应的平滑特征图叠加在一起共同输入所述网络模块,得到所述网络模块输出的预估时频域谱图;响应于确定所述深度神经网络满足训练完成条件,则将所述深度神经网络作为语音增强模型。2.根据权利要求1所述的方法,其中,所述平滑模块包括:卷积模块,所述卷积模块采用平滑算法作为卷积核,所述平滑算法用于将所述输入的图像中设定个长度内的图块与各图块对应的权重相乘;所述权重由平滑因子确定,所述平滑因子的值固定。3.根据权利要求1所述的方法,其中,所述平滑模块包括:卷积模块,所述卷积模块采用平滑算法作为卷积核,所述平滑算法用于将所述输入的图像中设定个长度内的图块与各图块对应的权重相乘;所述权重由平滑因子确定,所述平滑因子随所述深度神经网络训练而进行自学习,直至所述深度神经网络满足所述训练完成条件为止。4.根据权利要求2所述的方法,其中,所述卷积模块为多个,多个卷积模块并联连接,每个卷积模块的平滑因子的值不同。5.根据权利要求3所述的方法,其中,所述平滑因子的自学习包括以下步骤:初始化所述平滑因子的值;基于误差反向传播算法以及所述深度神经网络的损失函数,在所述深度神经网络每次迭代时,更新所述平滑因子的值。6.一种语音增强方法,所述方法包括:获取目标语音信号的目标时频域谱图;将所述目标时频域谱图输入采用如权利要求1‑5中任一项所述的方法生成的语音增强模型中,得到所述语音增强模型生成的预测语音信号的时频域谱图。7.一种语音增强模型生成装置,所述装置包括:样本获取单元,被配置成获取样本语音信号的样本时频域谱图集,所述样本时频域谱图集包括至少一个样本时频域谱图;网络获取单元,被配置成获取预先建立的深度神经网络,所述深度神经网络包括:平滑模块、网络模块,所述平滑模块用于对输入的图像进行平滑处理,得到所述输入的图像对应的平滑特征图;选取单元,被配置成从所述样本时频域谱图集中选取样本时频域谱图;输入单元,被配置成将选取的样本时频域谱图以及与所述选取的样本时频域谱图对应的平滑特征图叠加在一起共同输入所述网络模块,得到所述网络模块输出的预估时频域谱图;输出单元,被配置成响应于确定所述深度神经网络满足训练完成条件,则将所述深度2CN113823312A权利要求书2/2页神经网络作为语音增强模型。8.一种语音增强装置,所述装置包括:获取单元,被配置成获取目标语音信号的目标时频域谱图;生成单元,被配置成将所述目标时频域谱图输入采用如权利要求1‑5中任一项所述的方法生成的语音增强模型中,得到所述语音增强模型生成的预测语音信号的时频域谱图。9.一种电子设备,