预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113889132A(43)申请公布日2022.01.04(21)申请号202111326968.X(22)申请日2021.11.10(71)申请人清华大学苏州汽车研究院(相城)地址215134江苏省苏州市相城区高铁新城太阳路2266号5幢(72)发明人姜彦吉田桂源刘海涛彭博郑四发(74)专利代理机构北京品源专利代理有限公司11332代理人初春(51)Int.Cl.G10L21/02(2013.01)G10L15/16(2006.01)权利要求书2页说明书13页附图5页(54)发明名称一种语音增强方法、装置、设备及存储介质(57)摘要本发明实施例公开了一种语音增强方法、装置、设备及存储介质。该方法包括:将待处理的带噪语音信号输入到目标语音增强模型中;其中,所述目标语音增强模型包含编码网络、降噪网络和解码网络;通过所述编码网络,对所述带噪语音信号执行编码操作,得到输出的编码语音特征;将所述编码语音特征输入到所述降噪网络中,得到输出的降噪语音特征;基于所述编码语音特征、降噪语音特征和所述解码网络,确定与所述带噪语音信号对应的增强语音信号。本发明实施例通过直接将带噪语音信号输入到目标语音增强模型中,解决了频域语音增强方法需要时域变换的问题,既缩短了语音增强的计算时间,又提高了语音增强的效果。CN113889132ACN113889132A权利要求书1/2页1.一种语音增强方法,其特征在于,包括:将待处理的带噪语音信号输入到目标语音增强模型中;其中,所述目标语音增强模型包含编码网络、降噪网络和解码网络;通过所述编码网络,对所述带噪语音信号执行编码操作,得到输出的编码语音特征;将所述编码语音特征输入到所述降噪网络中,得到输出的降噪语音特征;基于所述编码语音特征、降噪语音特征和所述解码网络,确定与所述带噪语音信号对应的增强语音信号。2.根据权利要求1所述的方法,其特征在于,所述降噪网络包括卷积模块、双阶变压模块、密集块模块和反卷积模块;所述卷积模块用于基于所述编码网络输出的编码语音特征,输出卷积语音特征;所述双阶变压模块用于基于注意力机制对所述卷积模块输出的卷积语音特征进行特征提取,输出变压语音特征;所述密集块模块用于基于所述双阶变压模块输出的变压语音特征,输出密集语音特征;所述反卷积模块用于基于所述卷积模块输出的卷积语音特征和所述密集块输出的密集语音特征,输出降噪语音特征。3.根据权利要求2所述的方法,其特征在于,所述双阶变压模块包括局部变压模块和全局变压模块;所述局部变压模块用于基于所述卷积模块输出的卷积语音特征,输出局部语音特征;所述全局变压模块用于基于所述局部变压模块输出的局部语音特征,输出变压语音特征。4.根据权利要求2所述的方法,其特征在于,所述密集块模块包括至少两个二维卷积模块,第一个二维卷积模块基于所述双阶变压模块输出的变压语音特征,输出第一子密集语音特征;第N个二维卷积模块基于所述双阶变压模块输出的变压语音特征以及前N‑1个二维卷积模块分别输出的子密集语音特征,输出密集语音特征;其中,所述N表示所述密集块模块包含的二维卷积模块的数量。5.根据权利要求2所述的方法,其特征在于,所述卷积模块包括预处理模块、第一卷积模块和第二卷积模块;所述预处理模块用于基于所述编码网络输出的编码语音特征,输出预处理语音特征;所述第一卷积模块用于对所述预处理模块输出的预处理语音特征进行卷积处理,输出第一卷积语音特征;所述第二卷积模块用于对所述第一卷积模块输出的第一卷积语音特征进行卷积处理,输出卷积语音特征。6.根据权利要求5所述的方法,其特征在于,所述反卷积模块包括第一合并模块、第一反卷积模块、第二合并模块和第二反卷积模块;所述第一合并模块用于对所述第二卷积模块输出的卷积语音特征和所述密集块模块输出的密集语音特征执行合并操作并输出给第一反卷积模块;所述第二合并模块用于对所述第一卷积模块输出的第一卷积语音特征和所述第一反卷积模块输出的第一反卷积语音特征执行合并操作并输出给所述第二反卷积模块。7.根据权利要求1‑6任一项所述的方法,其特征在于,所述目标语音增强模型的训练方法包括:将获取到的训练语音信号输入到待训练的初始语音增强模型中,得到输出的预测语音信号;基于所述预测语音信号和与所述训练语音信号对应的标准语音信号,确定损失函数;基于所述损失函数,对所述初始语音增强模块的模型参数进行更新,直到损失函数收2CN113889132A权利要求书2/2页敛时,得到训练完成的目标语音增强模型。8.一种语音增强装置,其特征在于,包括:带噪语音信号输入模块,用于将待处理的带噪语音信号输入到目标语音增强模型中;其中,所述目标语音增强模型中包含编码网络、降噪网络和解码网络;语音编码模块,用