预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114283833A(43)申请公布日2022.04.05(21)申请号202111596013.6(22)申请日2021.12.24(71)申请人北京达佳互联信息技术有限公司地址100085北京市海淀区上地西路6号1幢1层101D1-7(72)发明人任新蕾许成林陈联武郑羲光张旭张晨(74)专利代理机构北京铭硕知识产权代理有限公司11286代理人苏银虹王艳茹(51)Int.Cl.G10L21/0216(2013.01)G10L25/30(2013.01)权利要求书2页说明书13页附图5页(54)发明名称语音增强模型训练方法、语音增强方法、相关设备及介质(57)摘要本公开关于一种语音增强模型训练方法、语音增强方法、相关设备及介质。训练方法包括:基于三维声场麦克风采集的三维扫频信号,确定三维房间冲激响应;将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积,得到纯净时域三维语音信号和时域三维噪声信号;基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理,得到样本含噪时域三维语音信号;将样本含噪时域三维语音信号的复数谱输入到语音增强模型中,得到单通道预估增强复数谱;基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号,确定语音增强模型的目标损失函数;根据目标损失函数调整语音增强模型的参数,对语音增强模型进行训练。CN114283833ACN114283833A权利要求书1/2页1.一种语音增强模型训练方法,其特征在于,所述训练方法包括:基于三维声场麦克风采集的三维扫频信号,确定三维房间冲激响应;将单通道纯净时域语音信号和时域噪声信号分别与所述三维房间冲激响应进行卷积,得到纯净时域三维语音信号和时域三维噪声信号;基于预设信噪比对所述纯净时域三维语音信号和所述时域三维噪声信号进行混合处理,得到样本含噪时域三维语音信号;将所述样本含噪时域三维语音信号的复数谱输入到语音增强模型中,得到单通道预估增强复数谱;基于所述单通道预估增强复数谱对应的预估时域信号和所述单通道纯净时域语音信号,确定所述语音增强模型的目标损失函数;根据所述目标损失函数调整所述语音增强模型的参数,对所述语音增强模型进行训练。2.如权利要求1所述的训练方法,其特征在于,所述将所述样本含噪时域三维语音信号的复数谱输入到语音增强模型中,得到单通道预估增强复数谱,包括:根据所述样本含噪时域三维语音信号确定每个通道的样本复数谱,得到多个通道的样本复数谱;将所述多个通道的样本复数谱输入到所述语音增强模型的复数掩码网络,得到所述多个通道的样本复数掩码,其中,所述样本复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比;根据所述多个通道的样本复数谱和样本复数掩码确定每个通道的样本增强复数谱,得到所述多个通道的样本增强复数谱;将所述多个通道的样本增强复数谱输入到所述语音增强模型的波束形成模块,得到单通道预估增强复数谱。3.如权利要求1所述的训练方法,其特征在于,所述基于三维声场麦克风采集的三维扫频信号,确定三维房间冲激响应,包括:通过第一三维声场麦克风采集第一信号格式的三维扫频信号,其中,所述第一三维声场麦克风包括多个心形指向的麦克风单元;基于所述第一信号格式的三维扫频信号,得到所述第一信号格式的三维房间冲激响应;将所述第一信号格式的三维房间冲激响应转换为第二信号格式的三维房间冲激响应。4.如权利要求1所述的训练方法,其特征在于,所述基于三维声场麦克风采集的三维扫频信号,确定三维房间冲激响应,包括:通过第二三维声场麦克风采集第二信号格式的三维扫频信号,其中,所述第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元;基于所述第二信号格式的三维扫频信号,得到所述第二信号格式的三维房间冲激响应。5.一种语音增强方法,其特征在于,包括:获取待处理的含噪三维时域语音信号;2CN114283833A权利要求书2/2页将所述含噪三维时域语音信号的复数谱输入到语音增强模型,得到单通道增强复数谱;确定所述单通道增强复数谱对应的时域信号,并将所述时域信号作为所述含噪三维时域语音信号的增强时域语音信号;其中,所述语音增强模型是基于权利要求1至4中任一项所述的训练方法训练得到。6.一种语音增强模型的训练装置,其特征在于,所述训练装置包括:三维房间冲激响应确定单元,被配置为基于三维声场麦克风采集的三维扫频信号,确定三维房间冲激响应;三维信号获取单元,被配置为将单通道纯净时域语音信号和时域噪声信号分别与所述三维房间冲激响应进行卷积,得到纯净时域三维语音信号和时域三维噪声信号;样本信号获取单元,被配置为基于预设信噪比对所述纯净时域三维语音信号和所述时域