语音处理方法、装置、设备以及存储介质-豆柴文库

语音处理方法、装置、设备以及存储介质.pdf

2023-07-25

10金币

1.2MB

33页

书生****12

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共33页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113823313A(43)申请公布日2021.12.21(21)申请号202110783691.7(22)申请日2021.07.12(71)申请人腾讯科技（深圳）有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人张思宇高毅罗程李斌(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人张所明(51)Int.Cl.G10L21/0232(2013.01)G10L25/84(2013.01)G10L15/02(2006.01)G10L15/04(2013.01)权利要求书3页说明书22页附图7页(54)发明名称语音处理方法、装置、设备以及存储介质(57)摘要本申请公开了一种语音处理方法、装置、设备以及存储介质，属于计算机技术领域。通过本申请实施例提供的技术方案，在进行语音降噪时，无需通过结构复杂的模型进行噪声识别，直接基于语音数据的频域信息确定一个第一掩码，将第一掩码与语音数据的频谱结合，就能够得到目标语音数据，在保证降噪效果的同时，提高了语音降噪的速度，减少了计算资源的消耗。CN113823313ACN113823313A权利要求书1/3页1.一种语音处理方法，其特征在于，所述方法包括：获取语音数据的多个频域信息，所述多个频域信息和所述语音数据的多个音频帧一一对应；对所述多个频域信息进行特征提取，得到多个第一频域特征，所述第一频域特征是基于对应的音频帧以及与所述音频帧相邻的音频帧确定的；基于所述多个第一频域特征，获取所述语音数据的第一掩码，所述第一掩码用于去除所述语音数据中的噪声；基于所述语音数据的频谱和所述第一掩码，生成目标语音数据。2.根据权利要求1所述的方法，其特征在于，所述获取语音数据的多个频域信息包括：对所述语音数据进行分帧和加窗，得到所述多个音频帧；对所述多个音频帧进行时频变换，得到多个初始频域信息；对所述多个初始频域信息进行归一化处理，得到所述多个频域信息。3.根据权利要求2所述的方法，其特征在于，所述对所述多个初始频域信息进行归一化处理，得到所述多个频域信息包括：获取所述多个初始频域信息的均值和方差；采用所述均值和所述方差，对所述多个初始频域信息进行归一化处理，得到所述多个频域信息。4.根据权利要求1所述的方法，其特征在于，所述对所述多个频域信息进行特征提取，得到多个第一频域特征包括：将所述多个频域信息输入语音增强模型，通过所述语音增强模型，对所述多个频域信息进行特征提取，得到多个第二频域特征；通过所述语音增强模型，按照所述多个音频帧的排列顺序，基于所述多个第二频域特征，获取所述多个第一频域特征。5.根据权利要求4所述的方法，其特征在于，所述按照所述多个音频帧的排列顺序，基于所述多个第二频域特征，获取所述多个第一频域特征包括：对于所述多个音频帧中的任一音频帧，基于所述音频帧的第二频域特征以及与所述音频帧相邻的至少一个音频帧的第二频域特征，获取所述音频帧的第一频域特征。6.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一频域特征，获取所述语音数据的第一掩码包括：通过语音增强模型，对所述多个第一频域特征进行全连接处理，得到所述语音数据的第一掩码。7.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据的频谱和所述第一掩码信息，生成目标语音数据包括：通过语音增强模型，将所述语音数据的频谱的多个频点与所述第一掩码相乘，得到第一目标频谱；将所述第一目标频谱转化为所述目标语音数据。8.根据权利要求4‑7任一项所述的方法，其特征在于，所述方法还包括：获取第一样本语音数据和第二样本语音数据，所述第二样本语音数据是对所述第一样本语音数据加噪后得到的语音数据；2CN113823313A权利要求书2/3页将所述第二样本语音数据输入所述语音增强模型，通过所述语音增强模型，获取所述第二样本语音数据的预测第一掩码；将所述第二样本语音数据的频谱的多个频点与所述预测第一掩码相乘，得到预测频谱；基于所述预测频谱和所述第一样本语音数据的频谱之间的差异信息，训练所述语音增强模型。9.根据权利要求1所述的方法，其特征在于，所述基于所述语音数据的频谱和所述第一掩码，生成目标语音数据之前，所述方法还包括：对语音数据进行统计降噪，得到所述语音数据的第二掩码；所述基于所述语音数据的频谱和所述第一掩码，生成目标语音数据包括：基于所述第二掩码、所述标语音数据的频谱和所述第一掩码，生成所述目标语音数据。10.根据权利要求9所述的方法，其特征在于，所述对语音数据进行统计降噪，得到所述语音数据的第二掩码包括下述任一项：获取所述语音数据的噪声估计频谱；基于所述噪声估计频谱和所述语音数据的频谱，获取所述第二掩码；对所述语音数据进

相关资料

语音处理方法、装置、设备以及存储介质.pdf

本申请公开了一种语音处理方法、装置、设备以及存储介质，属于计算机技术领域。通过本申请实施例提供的技术方案，在进行语音降噪时，无需通过结构复杂的模型进行噪声识别，直接基于语音数据的频域信息确定一个第一掩码，将第一掩码与语音数据的频谱结合，就能够得到目标语音数据，在保证降噪效果的同时，提高了语音降噪的速度，减少了计算资源的消耗。

2023-07-25

1.2MB

语音处理方法、装置、电子设备以及存储介质.pdf

本公开提供了语音处理方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及车联网和智能座舱等技术领域。具体实现方案为：响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应；从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征；从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，

2023-07-24

817KB

语音处理方法、装置、电子设备以及存储介质.pdf

本申请公开了一种语音处理方法、装置、电子设备以及存储介质，包括：获取已标注的第一语音样本、未标注的第二语音样本、预训练的基础语音模型、流式语音处理模型和语言模型；根据第一语音样本对流式语音处理模型进行调整，得到调整后流式语音处理模型；基于第一语音样本、第二语音样本以及流式语音处理模型对应的教师模型，对流式语音处理模型进行训练，得到训练后流式语音处理模型；根据第一语音样本、基础语音模型以及语言模型对第二语音样本进行标注，得到标注后第二语音样本；基于第一语音样本和标注后第二语音样本对训练后流式语音处理模型进行

2023-07-25

845KB

语音处理方法、装置、终端设备以及存储介质.pdf

本发明公开了一种语音处理方法、装置、终端设备以及存储介质,通过获取当前用户的声纹信息;根据所述声纹信息选取或确定对应的声纹引擎;基于所述声纹引擎与所述当前用户进行语音交互。通过根据当前用户的声纹信息制作声纹引擎,并基于对应的声纹引擎与用户进行语音交互,提升用户使用终端的趣味性,从而改善用户体验,提升用户的使用黏度。

2023-04-20

709KB

语音播放方法、装置、设备以及存储介质.pdf

本申请实施例公开了一种语音播放方法、装置、设备以及存储介质，可适用于应用于云技术、人工智能、智慧交通、物联网、辅助驾驶等各种场景。该方法包括：响应于用户登录目标终端的终端系统，显示音色定制提示页面；获取用户基于音色定制提示页面上传的第一音频数据，显示音色列表页面，音色列表页面包括由第一音频数据确定的第一音色配置信息，第一音频数据和第一音色配置信息对应于同一音色；响应于用户针对音色列表页面中目标音色配置信息的设置指令，通过目标终端以目标音色配置信息对应的音色播放音频信息。采用本申请实施例，可快速便捷地为终端

2023-07-24

945KB