预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113920977A(43)申请公布日2022.01.11(21)申请号202111165153.8G10L25/03(2013.01)(22)申请日2021.09.30(71)申请人宿迁硅基智能科技有限公司地址223808江苏省宿迁市湖滨新区保险小镇B19栋201室(72)发明人司马华鹏毛志强田晓晖(74)专利代理机构北京弘权知识产权代理有限公司11363代理人逯长明许伟群(51)Int.Cl.G10L13/02(2013.01)G10L13/033(2013.01)G10L13/08(2013.01)G10L25/24(2013.01)G10L25/30(2013.01)权利要求书3页说明书11页附图5页(54)发明名称一种语音合成模型、模型的训练方法以及语音合成方法(57)摘要本发明公开了一种语音合成模型、模型的训练方法以及语音合成方法,语音合成模型包括:嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器。对该模型进行训练包括:获取多条情感音频以及与每条情感音频对应的文本;分析情感音频,提取情感音频对应的音素;获取情感音频的真实特征;将真实特征、情感音频对应的音素以及文本输入至初始化语音合成模型完成训练。通过训练完成的语音模型完成语音合成,包括:获取目标情感音频对应的音素以及目标文本;将目标情感音频对应的音素以及目标文本输入至语音合成模型中,得到目标声学特征;将目标声学特征还原成目标文本对应的音频。CN113920977ACN113920977A权利要求书1/3页1.一种语音合成模型,其特征在于,包括嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器,其中:所述嵌入模块用于对待合成文本进行预处理,所述预处理包括对所述待合成文本的正则化处理、拼音转音素、多音字消岐、韵律预测;所述时长预测模块用于对目标音频中的每个音素的发音时长进行预测,得到音素时长特征预测值;所述能量预测模块用于对所述目标音频中的能量进行预测,得到能量特征预测值;所述音高预测模块用于对所述目标音频中的音高进行预测,得到音高特征预测值;所述情感强度预测模块用于对所述目标音频中的情感强度进行预测,得到情感强度特征预测值;所述编码器用于提取所述待合成文本的文本特征;所述特征组合模块用于将所述文本特征与所述音素时长特征预测值、能量特征预测值、音高特征预测值、情感强度特征预测值进行组合拼接得到组合特征;所述解码器用于将所述组合特征经过解码获得目标声学特征。2.一种语音合成模型的训练方法,应用于权利要求1所述的模型中,其特征在于,包括:获取训练数据,所述训练数据包括多条情感音频以及与每条所述情感音频对应的文本;分析所述情感音频,提取所述情感音频对应的音素;获取所述情感音频的真实特征,所述真实特征包括音素时长特征、能量特征、音高特征、情感强度特征;将所述真实特征、所述情感音频对应的音素以及所述文本输入至初始化语音合成模型,所述初始化语音合成模型根据初始模型参数执行以下步骤:对所述文本进行预处理,包括文本的正则化处理、拼音转音素、多音字消歧以及韵律预测;根据预处理的文本,获取所述文本的文本序列,将所述文本序列转换为对应的编码值;获取所述音素的预测特征,所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征;根据所述真实特征与所述预测特征计算损失函数;根据所述预测特征与所述编码值获取声学特征,所述声学特征为梅尔频谱特征,并根据所述损失函数与所述声学特征优化所述初始模型参数,直至达到模型收敛条件,完成训练,生成目标语音合成模型。3.根据权利要求2所述的方法,其特征在于,获取所述情感音频的情感强度特征,包括:通过所述文本,获取任一条所述情感音频对应的拼音;使用音素对齐工具获取所述拼音在所述情感音频中的起始和终止时间;根据所述拼音的起始和终止时间,将所述情感音频分割为多个子音频;根据所述子音频获取所述情感音频的情感强度特征。4.根据权利要求2所述的方法,其特征在于,获取所述音素的预测特征,包括:分析所述情感音频,提取所述情感音频对应的音素;对所述文本进行预处理,所述预处理包括对所述文本的正则化处理、拼音转音素、多音2CN113920977A权利要求书2/3页字消歧以及韵律预测;分析所述文本,提取所述文本的文本特征,所述文本特征为所述文本对应的音素;将所述情感音频对应的音素以及所述文本输入至初始化语音合成模型;对所述情感音频中的每个音素的发音时长进行预测,得到对应的预测音素时长特征,对每个所述音素的能量、音高、情感强度进行预测,得到对应的预测能量特征、预测音高特征以及预测情感强度特征