语音增强模型训练方法、语音增强方法、相关设备及介质-豆柴文库

语音增强模型训练方法、语音增强方法、相关设备及介质.pdf

2023-07-24

10金币

1MB

21页

小新****ou

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共21页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114283833A(43)申请公布日2022.04.05(21)申请号202111596013.6(22)申请日2021.12.24(71)申请人北京达佳互联信息技术有限公司地址100085北京市海淀区上地西路6号1幢1层101D1-7(72)发明人任新蕾许成林陈联武郑羲光张旭张晨(74)专利代理机构北京铭硕知识产权代理有限公司11286代理人苏银虹王艳茹(51)Int.Cl.G10L21/0216(2013.01)G10L25/30(2013.01)权利要求书2页说明书13页附图5页(54)发明名称语音增强模型训练方法、语音增强方法、相关设备及介质(57)摘要本公开关于一种语音增强模型训练方法、语音增强方法、相关设备及介质。训练方法包括：基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音增强模型的目标损失函数；根据目标损失函数调整语音增强模型的参数，对语音增强模型进行训练。CN114283833ACN114283833A权利要求书1/2页1.一种语音增强模型训练方法，其特征在于，所述训练方法包括：基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；将单通道纯净时域语音信号和时域噪声信号分别与所述三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；基于预设信噪比对所述纯净时域三维语音信号和所述时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；将所述样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；基于所述单通道预估增强复数谱对应的预估时域信号和所述单通道纯净时域语音信号，确定所述语音增强模型的目标损失函数；根据所述目标损失函数调整所述语音增强模型的参数，对所述语音增强模型进行训练。2.如权利要求1所述的训练方法，其特征在于，所述将所述样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱，包括：根据所述样本含噪时域三维语音信号确定每个通道的样本复数谱，得到多个通道的样本复数谱；将所述多个通道的样本复数谱输入到所述语音增强模型的复数掩码网络，得到所述多个通道的样本复数掩码，其中，所述样本复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据所述多个通道的样本复数谱和样本复数掩码确定每个通道的样本增强复数谱，得到所述多个通道的样本增强复数谱；将所述多个通道的样本增强复数谱输入到所述语音增强模型的波束形成模块，得到单通道预估增强复数谱。3.如权利要求1所述的训练方法，其特征在于，所述基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，所述第一三维声场麦克风包括多个心形指向的麦克风单元；基于所述第一信号格式的三维扫频信号，得到所述第一信号格式的三维房间冲激响应；将所述第一信号格式的三维房间冲激响应转换为第二信号格式的三维房间冲激响应。4.如权利要求1所述的训练方法，其特征在于，所述基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，所述第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于所述第二信号格式的三维扫频信号，得到所述第二信号格式的三维房间冲激响应。5.一种语音增强方法，其特征在于，包括：获取待处理的含噪三维时域语音信号；2CN114283833A权利要求书2/2页将所述含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱；确定所述单通道增强复数谱对应的时域信号，并将所述时域信号作为所述含噪三维时域语音信号的增强时域语音信号；其中，所述语音增强模型是基于权利要求1至4中任一项所述的训练方法训练得到。6.一种语音增强模型的训练装置，其特征在于，所述训练装置包括：三维房间冲激响应确定单元，被配置为基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；三维信号获取单元，被配置为将单通道纯净时域语音信号和时域噪声信号分别与所述三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；样本信号获取单元，被配置为基于预设信噪比对所述纯净时域三维语音信号和所述时域

相关资料

语音增强模型训练方法、语音增强方法、相关设备及介质.pdf

本公开关于一种语音增强模型训练方法、语音增强方法、相关设备及介质。训练方法包括：基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音

2023-07-24

1MB

语音增强方法、模型训练方法以及相关设备.pdf

本公开提供一种语音增强方法、模型训练方法以及相关设备。语音增强模型包括语音预测神经网络模块、噪声估计神经网络模块以及线性滤波模块，模型训练方法包括：获取训练集中各语音对的带噪语音幅度谱以及纯净语音幅度谱；根据带噪语音幅度谱获得第一特征集以及第二特征集；将第一特征集输入语音预测神经网络模块，以输出第一准估计纯净语音幅度谱以及预测误差；将第二特征集输入噪声估计神经网络模块，以输出估计噪声能量；将第一准估计纯净语音幅度谱、预测误差、估计噪声能量输入线性滤波模块，线性滤波模块用于输出估计纯净语音幅度谱；根据纯净语

2023-06-14

947KB

语音增强模型的训练方法和装置及语音增强方法和装置.pdf

本申请涉及语音处理技术领域，提供了一种语音增强模型的训练方法和装置及语音增强方法和装置。所述语音增强模型的训练方法包括：获取语音训练集；其中，语音训练集中包括含噪语音样本和纯净语音样本；获取含噪语音样本对应的幅度谱输入生成网络，获取增强语音幅度谱；获取纯净语音样本对应的幅度谱和增强语音幅度谱输入判别网络，获取判别结果；根据增强语音幅度谱、纯净语音样本对应的幅度谱、判别结果与优化目标调整生成网络和判别网络的网络参数，生成语音增强模型。采用本方法能够提高语音增强模型的性能，进而提升语音增强的效果。

2023-07-25

1.3MB

语音增强方法、装置、设备及存储介质.pdf

本发明公开了一种语音增强方法、装置、设备及存储介质。获取语音样本数据，并将所述语音样本数据按照设定比例拆分为训练集和验证集；其中，所述语音样本数据包括带噪语音及对应的纯净语音；基于所述训练集对设定语音增强模型进行训练；基于所述验证集对训练后的所述设定语音增强模型进行验证；将待增强语音输入验证后的所述设定语音增强模型，输出目标语音。本发明实施例提供的语音增强方法，将待增强语音输入验证后的设定语音增强模型，输出目标语音，可以改善语音增强过程中容易产生语音丢失和语音失真等损伤原始语音数据的问题，保证语音增强的效

2023-07-24

755KB

语音增强模型生成方法和装置、语音增强方法和装置.pdf

本申请公开了一种语音增强模型生成方法和装置，涉及语音技术、计算机视觉、深度学习技术领域。该方法的一个具体实施方式包括：获取样本语音信号的样本时频域谱图集，样本时频域谱图集包括至少一个样本时频域谱图；获取预先建立的深度神经网络，深度神经网络包括：平滑模块、网络模块，平滑模块用于对输入的图像进行平滑处理，得到平滑特征图；执行以下训练步骤：从样本时频域谱图集中选取样本时频域谱图，并将选取的样本时频域谱图以及与选取的样本时频域谱图对应的平滑特征图同时输入网络模块；响应于确定深度神经网络满足训练完成条件，则将深度神

2023-06-14

755KB