预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113808602A(43)申请公布日2021.12.17(21)申请号202110129897.8G10L21/0232(2013.01)(22)申请日2021.01.29G10L25/30(2013.01)G10L15/06(2013.01)(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人雪巍蔡玉玉吴俊仪全刚张超杨帆丁国宏何晓冬(74)专利代理机构北京律智知识产权代理有限公司11438代理人孙宝海袁礼君(51)Int.Cl.G10L21/02(2013.01)G10L21/0216(2013.01)权利要求书3页说明书11页附图6页(54)发明名称语音增强方法、模型训练方法以及相关设备(57)摘要本公开提供一种语音增强方法、模型训练方法以及相关设备。语音增强模型包括语音预测神经网络模块、噪声估计神经网络模块以及线性滤波模块,模型训练方法包括:获取训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱;根据带噪语音幅度谱获得第一特征集以及第二特征集;将第一特征集输入语音预测神经网络模块,以输出第一准估计纯净语音幅度谱以及预测误差;将第二特征集输入噪声估计神经网络模块,以输出估计噪声能量;将第一准估计纯净语音幅度谱、预测误差、估计噪声能量输入线性滤波模块,线性滤波模块用于输出估计纯净语音幅度谱;根据纯净语音幅度谱以及估计纯净语音幅度谱计算模型损失,以训练语音增强模型。本公开实现语音增强的优化。CN113808602ACN113808602A权利要求书1/3页1.一种语音增强模型训练方法,其特征在于,所述语音增强模型包括语音预测神经网络模块、噪声估计神经网络模块以及线性滤波模块,所述语音增强模型训练方法,包括:获取语音训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱,所述语音对包括关联的纯净语音信号以及带噪语音信号;根据所述带噪语音幅度谱获得第一特征集以及第二特征集;将所述第一特征集输入所述语音预测神经网络模块,所述语音预测神经网络模块用于输出第一准估计纯净语音幅度谱以及预测误差;将所述第二特征集输入所述噪声估计神经网络模块,所述噪声估计神经网络模块用于输出估计噪声能量;将所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及预测误差、所述噪声估计神经网络模块输出的估计噪声能量输入所述线性滤波模块,所述线性滤波模块用于输出估计纯净语音幅度谱;根据所述纯净语音幅度谱以及所述估计纯净语音幅度谱计算模型损失,并根据模型损失训练所述语音增强模型。2.如权利要求1所述的语音增强模型训练方法,其特征在于,所述获取语音训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱包括:对所述语音对的纯净语音信号执行时域到频域的变换步骤;对所述语音对的带噪语音信号执行时域到频域的变换步骤,所述时域到频域的变换步骤包括:对待处理语音信号进行分帧;对所述待处理语音信号的各帧进行傅里叶变换,获得各帧的帧傅里叶谱;按时间轴拼接所述待处理语音信号的各帧的帧傅里叶谱,获得所述待处理语音信号的傅里叶谱;基于所述待处理语音信号的傅里叶谱的各频点的幅度,生成所述待处理语音信号的幅度谱。3.如权利要求1所述的语音增强模型训练方法,其特征在于,所述语音预测神经网络模块为时间序列神经网络模型,所述第一特征集为多个连续帧的噪声幅度谱序列,所述语音预测神经网络模块输出的所述第一准估计纯净语音幅度谱为与所述噪声幅度谱序列具有相同维度的第一准估计纯净语音幅度谱序列,所述语音预测神经网络模块输出的所述预测误差为与所述噪声幅度谱序列具有相同维度的预测误差序列。4.如权利要求1所述的语音增强模型训练方法,其特征在于,所述噪声估计神经网络模块为多层全连接网络模型,所述第二特征集包括当前帧以及当前帧的领域窗口的带噪语音幅度谱。5.如权利要求1所述的语音增强模型训练方法,其特征在于,所述线性滤波模块包括维纳滤波模块、卡尔曼增益计算模块以及线性组合模块,所述维纳滤波模块用于根据所述噪声估计神经网络模块输出的估计噪声能量以及所述第二特征集,输出纯净语音幅度谱的维纳滤波解,作为第二准估计纯净语音幅度谱;所述卡尔曼增益计算模块用于根据所述语音预测神经网络模块输出的预测误差以及2CN113808602A权利要求书2/3页所述噪声估计神经网络模块输出的估计噪声能量,输出最优卡尔曼增益G;所述线性组合模块用于根据所述最优卡尔曼增益G,计算所述语音预测神经网络模块输出的第一准估计纯净语音幅度谱以及所述第二准估计纯净语音幅度谱的线性组合结果,作为所述估计纯净语音幅度谱。6.如权利要求5所述的语音增强模型训练方法,其特征