预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114999444A(43)申请公布日2022.09.02(21)申请号202210687777.4(22)申请日2022.06.17(71)申请人云知声智能科技股份有限公司地址100096北京市海淀区西三旗建材城内1幢一层101号(72)发明人周瑜秋孙见青梁家恩(51)Int.Cl.G10L13/02(2013.01)G10L13/033(2013.01)G10L25/30(2013.01)G10L25/51(2013.01)权利要求书2页说明书8页附图2页(54)发明名称语音合成模型的训练方法、装置、电子设备及存储介质(57)摘要本申请公开了语音合成模型的训练方法、装置、电子设备及存储介质。方法包括:获取待处理的初始文本,并检测初始文本携带的字符,得到初始文本对应的初始韵律结构;获取初始文本对应的目标个性化语音,并确定目标个性化语音所包括每一个音素的对齐结果;利用对齐结果修正初始文本对应的初始韵律结构,得到目标韵律结构,并基于目标音律结构生成目标文本;基于目标文本的目标韵律结构以及目标个性化语音训练预设神经网络模型,得到语音合成模型。本申请通过对齐结果对初始韵律结构中不连贯的部分进行修正,通过目标文本保证录音和文本的韵律结构一致。以此保证利用修正后的韵律结构生成目标文本训练得到的模型,具有更好的语音合成效果。CN114999444ACN114999444A权利要求书1/2页1.一种语音合成模型的训练方法,其特征在于,包括:获取待处理的初始文本,并检测所述初始文本携带的字符,得到所述初始文本对应的初始韵律结构;获取所述初始文本对应的目标个性化语音,并确定所述目标个性化语音所包括每一个音素的对齐结果;利用所述对齐结果修正所述初始文本对应的初始韵律结构,得到目标韵律结构,并基于所述目标音律结构生成目标文本;基于所述目标文本的目标韵律结构以及所述目标个性化语音训练预设神经网络模型,得到语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述检测所述初始文本携带的字符,得到所述初始文本对应的初始韵律结构,包括:提取所述初始文本所携带的每一个字符;利用预设单词库对所述初始文本中每个字符以及相邻字符进行检测,得到所述初始文本中的至少一个词组,以及每个词组对应的目标拼音信息;检测所述初始文本对应的目标情绪类别:利用预设韵律检测模型基于所述目标拼音信息以及所述目标情绪类别确定所述初始文本对应的初始韵律结构。3.根据权利要求2所述的方法,其特征在于,在提取所述初始文本所携带的每一个字符之前,所述方法还包括:检测所述初始文本对应的文本特征,并利用所述文本特征确定所述初始文本包含的语种信息;在所述初始文本包含至少两种语种况下,对所述初始文本进行编译处理,得到目标语种的初始文本,其中所述目标语种为至少两种语种中的任意一种。4.根据权利要求1所述的方法,其特征在于,所述确定所述目标个性化语音所包括每一个音素的对齐结果,包括:检测所述初始文本,得到所述初始文本对应的候选音素,并基于所述候选音素生成候选音素序列;获取所述目标个性化语音对应的音素序列;将所述候选音素序列中的候选音素与所述音素序列中的音素进行对齐,得到所述目标个性化语音所包括的每一个音素的对齐结果。5.根据权利要求4所述的方法,其特征在于,所述基于所述候选音素生成候选音素序列,包括:获取所述初始文本中的至少一个词组,并确定所述词组对应的音素组合;获取所述词组在所述初始文本中的位置信息,并根据所述位置信息对所述音素组合进行排序,得到所述候选音素序列。6.根据权利要求1所述的方法,其特征在于,所述利用所述对齐结果修正所述初始文本对应的初始韵律结构,得到目标韵律结构,包括:基于每个音素对应的对齐结果确定所述目标个性化语音当前存在的静音段音素,以及所述静音段音素对应的时间信息;2CN114999444A权利要求书2/2页利用所述静音段音素以及所述静音段音素对应的时间信息修正所述初始文本对应的初始韵律结构,得到所述目标韵律结构。7.根据权利要求1所述的方法,其特征在于,所述基于所述目标文本的目标韵律结构以及所述目标个性化语音训练预设神经网络模型,得到语音合成模型,包括:基于所述目标文本包含的字符生成字符序列样本;将所述目标韵律结构确定为所述字符序列样本对应的标注信息;将携带所述标注信息的字符序列样本以及所述目标个性化语音输入预设神经网络模型,以使所述预设神经网络模型学习所述字符序列序列中字符与目标韵律结构之间的关系,基于所述字符序列样本得到预测韵律结构,并利用预测音律结构与所述字符序列样本生成合成语音,在所述合成语音与所述目标个性化语音相匹配的情况下,得到语音合成模型。8.一种语音合成模型的训练装置,其特征在于,包括:获取模块,用于获