一种语音增强方法、装置、设备以及存储介质-豆柴文库

一种语音增强方法、装置、设备以及存储介质.pdf

2023-07-24

10金币

1.1MB

25页

一条****88

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共25页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114242098A(43)申请公布日2022.03.25(21)申请号202111521637.1(22)申请日2021.12.13(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人李光正张国昌于利标魏建强(74)专利代理机构北京品源专利代理有限公司11332代理人赵翠香(51)Int.Cl.G10L21/0208(2013.01)G10L21/0216(2013.01)G10L21/0264(2013.01)G10L21/0232(2013.01)G10L25/30(2013.01)权利要求书2页说明书12页附图10页(54)发明名称一种语音增强方法、装置、设备以及存储介质(57)摘要本公开提供了一种语音增强方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及深度学习技术和语音技术领域，可用于音频通讯场景。具体实现方案为：对至少两路目标语音进行子带分解处理，得到至少两路目标语音的幅度谱和相位谱；其中，至少两路目标语音包括：目标混合语音和目标干扰语音；根据至少两路目标语音的幅度谱，确定目标混合语音在特征域内存在目标纯净语音的预测概率；根据预测概率、至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到目标混合语音中的目标纯净语音。能够提高语音增强效果，为语音增强提供了新的解决思路。CN114242098ACN114242098A权利要求书1/2页1.一种语音增强方法，包括：对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的幅度谱和相位谱；其中，所述至少两路目标语音包括：目标混合语音和目标干扰语音；根据所述至少两路目标语音的幅度谱，确定所述目标混合语音在特征域内存在目标纯净语音的预测概率；根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音。2.根据权利要求1所述的方法，其中，所述对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的幅度谱和相位谱，包括：对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的虚数信号；根据所述至少两路目标语音的虚数信号，确定所述至少两路目标语音的幅度谱和相位谱。3.根据权利要求1或2所述的方法，还包括：基于对数处理和/或归一化处理，更新所述至少两路目标语音的幅度谱。4.根据权利要求1所述的方法，其中，所述根据所述至少两路目标语音的幅度谱，确定所述目标混合语音在特征域内存在目标纯净语音的预测概率，包括：将所述至少两路目标语音的幅度谱输入到语音增强模型中，得到所述目标混合语音在特征域内存在目标纯净语音的预测概率；其中，所述语音增强模型包括：卷积神经网络、时间卷积网络、全连接网络和激活网络。5.根据权利要求4所述的方法，其中，所述语音增强模型是基于训练样本通过有监督训练得到，所述训练样本包括：基于麦克风指向性生成的样本纯净语音、样本干扰语音，以及对所述样本纯净语音混入不同类型噪声和/或回声的样本混合语音。6.根据权利要求1所述的方法，其中，所述根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音，包括：根据所述预测概率和所述目标混合语音的幅度谱，确定目标纯净语音的幅度谱；对所述目标纯净语音的幅度谱和所述目标混合语音的相位谱进行子带合成处理，得到目标纯净语音。7.根据权利要求1所述的方法，其中，所述至少两路目标语音还包括：初步对所述目标混合语音进行回声和/或噪声消除后的预处理语音；根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音，包括：根据所述预测概率、所述预处理语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音。8.一种语音增强装置，包括：子带分解模块，用于对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的幅度谱和相位谱；其中，所述至少两路目标语音包括：目标混合语音和目标干扰语音；概率预测模块，用于根据所述至少两路目标语音的幅度谱，确定所述目标混合语音在特征域内存在目标纯净语音的预测概率；2CN114242098A权利要求书2/2页子带合成模块，用于根据所述预测概率、所述至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到所述目标混合语音中的目标纯净语音。9.根据权利要求8所述的装置，其中，所述子带分解模块，包括：子带分解单元，用于对至少两路目标语音进行子带分解处理，得到所述至少两路目标语音的虚数信号；频谱确定单元，用于根据所述至少两路目标语音的虚数信号，确定所述至少两路目标语音的幅度谱和相位谱。10.根据权利要求

相关资料

一种语音增强方法、装置、设备以及存储介质.pdf

本公开提供了一种语音增强方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及深度学习技术和语音技术领域，可用于音频通讯场景。具体实现方案为：对至少两路目标语音进行子带分解处理，得到至少两路目标语音的幅度谱和相位谱；其中，至少两路目标语音包括：目标混合语音和目标干扰语音；根据至少两路目标语音的幅度谱，确定目标混合语音在特征域内存在目标纯净语音的预测概率；根据预测概率、至少两路目标语音的幅度谱和相位谱，进行子带合成处理，得到目标混合语音中的目标纯净语音。能够提高语音增强效果，为语音增强提供了新的解决思

2023-07-24

1.1MB

语音增强方法、装置、设备及存储介质.pdf

本发明公开了一种语音增强方法、装置、设备及存储介质。获取语音样本数据，并将所述语音样本数据按照设定比例拆分为训练集和验证集；其中，所述语音样本数据包括带噪语音及对应的纯净语音；基于所述训练集对设定语音增强模型进行训练；基于所述验证集对训练后的所述设定语音增强模型进行验证；将待增强语音输入验证后的所述设定语音增强模型，输出目标语音。本发明实施例提供的语音增强方法，将待增强语音输入验证后的设定语音增强模型，输出目标语音，可以改善语音增强过程中容易产生语音丢失和语音失真等损伤原始语音数据的问题，保证语音增强的效

2023-07-24

755KB

一种语音增强方法、装置、设备及存储介质.pdf

本发明实施例公开了一种语音增强方法、装置、设备及存储介质。该方法包括：将待处理的带噪语音信号输入到目标语音增强模型中；其中，所述目标语音增强模型包含编码网络、降噪网络和解码网络；通过所述编码网络，对所述带噪语音信号执行编码操作，得到输出的编码语音特征；将所述编码语音特征输入到所述降噪网络中，得到输出的降噪语音特征；基于所述编码语音特征、降噪语音特征和所述解码网络，确定与所述带噪语音信号对应的增强语音信号。本发明实施例通过直接将带噪语音信号输入到目标语音增强模型中，解决了频域语音增强方法需要时域变换的问题，

2023-07-25

951KB

语音播报方法、装置、设备以及存储介质.pdf

本发明公开了一种语音播报方法、装置、设备以及存储介质，属于视频会议技术领域。该方法包括：获取多点控制单元MCU管理系统发送的包括目标会议标识、目标分会场标识和目标指令标识的语音播放请求；根据所述目标会议标识、所述目标分会场标识和所述目标指令标识，确定目标播报语音；向目标主会场播放所述目标播报语音。通过上述技术方案，可以对各会场状态的变化进行实时播报。

2023-07-23

563KB

语音播放方法、装置、设备以及存储介质.pdf

本申请实施例公开了一种语音播放方法、装置、设备以及存储介质，可适用于应用于云技术、人工智能、智慧交通、物联网、辅助驾驶等各种场景。该方法包括：响应于用户登录目标终端的终端系统，显示音色定制提示页面；获取用户基于音色定制提示页面上传的第一音频数据，显示音色列表页面，音色列表页面包括由第一音频数据确定的第一音色配置信息，第一音频数据和第一音色配置信息对应于同一音色；响应于用户针对音色列表页面中目标音色配置信息的设置指令，通过目标终端以目标音色配置信息对应的音色播放音频信息。采用本申请实施例，可快速便捷地为终端

2023-07-24

945KB