预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113948061A(43)申请公布日2022.01.18(21)申请号202111205560.7(22)申请日2021.10.15(71)申请人宿迁硅基智能科技有限公司地址223808江苏省宿迁市湖滨新区保险小镇B19栋201室(72)发明人司马华鹏毛志强(74)专利代理机构北京弘权知识产权代理有限公司11363代理人逯长明许伟群(51)Int.Cl.G10L13/08(2013.01)G10L13/10(2013.01)G10L25/63(2013.01)权利要求书2页说明书11页附图3页(54)发明名称语音合成方法、系统、语音合成模型及其训练方法(57)摘要本申请提供一种语音合成方法、系统、语音合成模型及其训练方法,所述方法包括获取目标文本和目标文本的第一瓶颈特征;获取参考音频库,参考音频库包括若干参考音频;获取参考音频库中每一个参考音频对应的参考文本,以及,获取每一个参考文本的第二瓶颈特征;计算第一瓶颈特征与每一个参考文本的第二瓶颈特征的相似度,将与第一瓶颈特征相似度最高的第二瓶颈特征对应的参考文本确定为文本模板;将文本模板对应的参考音频确定为音频模板;将音频模板和目标文本输入预先训练的语音合成模型中,以合成具备深度情感层次特征的语音。CN113948061ACN113948061A权利要求书1/2页1.一种语音合成方法,其特征在于,包括:获取目标文本和所述目标文本的第一瓶颈特征;获取参考音频库,所述参考音频库包括若干参考音频;获取所述参考音频库中每一个所述参考音频对应的参考文本,以及,获取每一个所述参考文本的第二瓶颈特征;计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度,将与所述第一瓶颈特征相似度最高的所述第二瓶颈特征对应的参考文本确定为文本模板;将所述文本模板对应的参考音频确定为音频模板;将所述音频模板和所述目标文本输入预先训练的语音合成模型中,得到合成音频。2.根据权利要求1所述的方法,其特征在于,获取目标文本对应的第一瓶颈特征,包括:获取与情感相关的文本数据;根据所述文本数据,建立情感编码网络模型,所述情感编码网络模型用于获取输入的文本的情感特征;根据所述情感编码网络模型解析所述目标文本,获取所述目标文本的情感特征,将所述目标文本的情感特征确定为第一瓶颈特征。3.根据权利要求2所述的方法,其特征在于,获取每一个所述参考文本对应的第二瓶颈特征,包括:根据所述情感编码网络模型解析每一个所述参考文本,获取每一个所述参考文本的情感特征,将所述参考文本的情感特征确定为第二瓶颈特征。4.根据权利要求1所述的方法,其特征在于,获取目标文本对应的第一瓶颈特征,包括:获取与风格相关的文本数据;根据所述文本数据,建立风格编码网络模型,所述风格编码网络模型用于获取输入的文本的风格特征;根据所述风格编码网络模型解析所述目标文本,获取所述目标文本的风格特征,将所述目标文本的风格特征确定为第一瓶颈特征。5.据权利要求4所述的方法,其特征在于,获取每一个所述参考文本对应的第二瓶颈特征,包括:根据所述风格编码网络模型解析每一个所述参考文本,获取每一个所述参考文本的风格特征,将所述参考文本的风格特征确定为第二瓶颈特征。6.一种语音合成系统,其特征在于,所述系统被配置为:获取目标文本和所述目标文本的第一瓶颈特征;获取参考音频库,所述参考音频库包括若干参考音频;获取所述参考音频库中每一个所述参考音频对应的参考文本,以及,获取每一个所述参考文本的第二瓶颈特征;计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度,将与所述第一瓶颈特征相似度最高的所述第二瓶颈特征对应的参考文本确定为文本模板;将所述文本模板对应的参考音频确定为音频模板;将所述音频模板和所述目标文本输入预先训练的语音合成模型中,得到合成音频。7.一种语音合成模型,应用于权利要求1‑5任一项所述的方法和权利要求6所述的系统2CN113948061A权利要求书2/2页中,其特征在于,包括编码器模块、特征提取模块、时长预测模块、时长采样模块、基频预测模块、解码器模块以及声码器模块,其中:所述编码器模块用于获取输入的目标文本的文本序列,所述目标文本的文本序列是所述目标文本的音素合集,将所述文本序列转换为对应的文本编码;所述特征提取模块用于根据输入的音频模板,获取所述音频模板的第三瓶颈特征,所述第三瓶颈特征至少包括所述音频模板的情感特征、风格特征中的一种;所述时长预测模块用于根据所述文本编码和所述第三瓶颈特征,获取所述文本编码的预测时长,所述文本编码的预测时长是通过预测得到的所述文本编码每一帧对应的发音时长;所述时长采样模块用于根据所述特征提取模块和所述时长预测模块的输出,对所述文本编码进行上采样