预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113889073A(43)申请公布日2022.01.04(21)申请号202111138464.5(22)申请日2021.09.27(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人侯建康孙涛聂志朋张立强贾磊王海峰(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人罗岚(51)Int.Cl.G10L13/047(2013.01)G10L13/04(2013.01)G10L25/18(2013.01)G10L19/04(2013.01)权利要求书2页说明书11页附图5页(54)发明名称语音处理方法、装置、电子设备和存储介质(57)摘要本公开提供了一种语音处理方法、装置、电子设备和存储介质,涉及计算机技术领域,具体涉及语音技术和深度学习等人工智能技术领域。具体实现方案为:获取原始语音;从原始语音中提取频谱图;获取语音合成模型,其中,语音合成模型包括第一生成子模型和第二生成子模型;调用第一生成子模型对频谱图进行处理,以生成频谱图的谐波结构;以及调用第二生成子模型对谐波结构和频谱图进行处理,以生成目标语音。由此,该方法具有合成音质较好,音色还原度高,发音稳定且计算量小等特点。CN113889073ACN113889073A权利要求书1/2页1.一种语音处理方法,包括:获取原始语音;从所述原始语音中提取频谱图;获取语音合成模型,其中,所述语音合成模型包括第一生成子模型和第二生成子模型;调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构;以及调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音。2.根据权利要求1所述的方法,其中,所述调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构,包括:对所述频谱图进行处理,以生成多组正弦波参数,其中,每组所述正弦波参数包括振幅和频率;分别生成所述多组正弦波参数的正弦波;将所述多组正弦波参数的正弦波进行叠加,以生成所述谐波结构。3.根据权利要求1所述的方法,其中,所述调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音,包括:根据所述谐波结构和所述频谱图生成多个子带语音;将所述多个子带语音进行合成,以生成目标语音。4.根据权利要求1所述的方法,其中,所述第一生成子模型通过以下方式生成:获取样本语音,并从所述样本语音中提取样本频谱图;对所述样本频谱图进行处理,以生成滤波器组和多组样本正弦波参数;通过所述滤波器组对白噪声进行滤波,以生成所述样本频谱图的非周期信号;分别生成所述多组样本正弦波参数的正弦波;将所述多组样本正弦波参数的正弦波进行叠加,以生成所述样本频谱图的样本谐波结构;将所述样本谐波结构与所述非周期信号进行叠加,以得到预测的第一合成语音;根据所述第一合成语音和所述样本语音生成第一损失值,并根据所述第一损失值对所述第一生成子模型进行训练。5.根据权利要求4所述的方法,其中,所述第二生成子模型通过以下方式生成:将所述样本频谱图和所述样本谐波结构输入所述第二生成子模型,以生成预测的第二合成语音;根据判别器对所述样本语音和所述第二合成语音进行判别,以生成第二损失值;根据所述第二损失值对所述第二生成子模型进行训练。6.一种语音处理装置,包括:第一获取模块,用于获取原始语音;提取模块,用于从所述原始语音中提取频谱图;第二获取模块,用于获取语音合成模型,其中,所述语音合成模型包括第一生成子模型和第二生成子模型;第一生成模块,用于调用所述第一生成子模型对所述频谱图进行处理,以生成所述频谱图的谐波结构;以及2CN113889073A权利要求书2/2页第二生成模块,用于调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理,以生成目标语音。7.根据权利要求6所述的装置,其中,所述第一生成模块,具体用于:对所述频谱图进行处理,以生成多组正弦波参数,其中,每组所述正弦波参数包括振幅和频率;分别生成所述多组正弦波参数的正弦波;将所述多组正弦波参数的正弦波进行叠加,以生成所述谐波结构。8.根据权利要求6所述的装置,其中,所述第二生成模块,具体用于:根据所述谐波结构和所述频谱图生成多个子带语音;将所述多个子带语音进行合成,以生成目标语音。9.根据权利要求6所述的装置,还包括:第一训练模块,用于通过以下方式生成所述第一生成子模型:获取样本语音,并从所述样本语音中提取样本频谱图;对所述样本频谱图进行处理,以生成滤波器组和多组样本正弦波参数;通过所述滤波器组对白噪声进行滤波,以生成所述样本频谱图的非周期信号;分别生成所述多组样本正弦波参数的正弦波;将所述多组样本正弦波参数的正弦波进行叠加,以生