预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114283783A(43)申请公布日2022.04.05(21)申请号202111674186.5(22)申请日2021.12.31(71)申请人科大讯飞股份有限公司地址230000安徽省合肥市高新开发区望江西路666号(72)发明人宋锐江源(74)专利代理机构深圳市力道知识产权代理事务所(普通合伙)44507代理人何姣(51)Int.Cl.G10L13/02(2013.01)G10L13/10(2013.01)G10L17/04(2013.01)G10L17/22(2013.01)G10L25/60(2013.01)权利要求书3页说明书14页附图6页(54)发明名称语音合成方法、模型训练方法、设备及存储介质(57)摘要本申请提供一种语音合成方法、模型训练方法、设备及存储介质,该语音合成方法包括:获取待合成文本,输入到训练好的目标语音合成模型,得到待合成文本对应的目标语音;其中,根据预训练集对预设的语音合成模型进行预训练得到语音合成模型;采用目标应用场景对应的目标时长预测网络替换语音合成模型的时长预测网络,得到目标语音合成模型;获取目标训练集,目标训练集包括目标说话人的语音样本;从预训练集中挑选出目标说话人的同类说话人的语音样本进行mask加噪得到加噪语音样本;根据目标训练集和加噪语音样本对目标语音合成模型进行训练,得到训练好的目标语音合成模型。本申请能够合成与特定说话人说话风格更为契合的高质量自然流畅语音。CN114283783ACN114283783A权利要求书1/3页1.一种语音合成方法,其特征在于,所述方法包括:获取待合成文本,输入到训练好的目标语音合成模型,得到所述待合成文本对应的目标语音,其中,所述训练好的目标语音合成模型通过如下方法得到:根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,其中,所述预训练集包括多个说话人的语音样本,所述语音合成模型包括时长预测网络;确定目标应用场景对应的目标时长预测网络,并采用所述目标时长预测网络替换所述语音合成模型的时长预测网络,得到目标语音合成模型;获取目标训练集,其中,所述目标训练集包括目标说话人的语音样本;从所述预训练集中获取与所述目标说话人的同类说话人的语音样本,对所述同类说话人的语音样本进行mask加噪处理,得到加噪语音样本;根据所述目标训练集和所述加噪语音样本对所述目标语音合成模型进行训练,得到所述训练好的目标语音合成模型。2.根据权利要求1所述的方法,其特征在于,所述预设的语音合成模型包括序列到序列网络和时长预测网络;所述根据预训练集对预设的语音合成模型进行预训练,得到语音合成模型,包括:根据预训练集对预设的语音合成模型的所述序列到序列网络和时长预测网络进行预训练,保存所述序列到序列网络和时长预测网络的参数,得到语音合成模型。3.根据权利要求2所述的方法,其特征在于,所述多个说话人的语音样本包括所述多个说话人的音频数据的声学特征,以及所述多个说话人的音频数据的文本对应的音素时长;所述根据预训练集对预设的语音合成模型的所述序列到序列网络和时长预测网络进行预训练,包括:将所述预训练集中多个说话人的语音样本输入至预设的语音合成模型中,在所述序列到序列网络的编码端对所述声学特征和所述音素时长进行编码,得到声学特征编码向量和音素时长编码向量;在所述序列到序列网络的解码端增加对噪声的嵌入操作得到噪声嵌入向量;以所述音素时长编码向量作为输入,所述音素时长作为预测目标,训练所述时长预测网络;基于所述声学特征编码向量、所述音素时长编码向量和所述噪声嵌入向量,以所述声学特征作为预测目标,训练所述序列到序列网络网络。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在训练所述时长预测网络时,计算所述时长预测网络的第一损失函数;在训练所述序列到序列网络时,计算所述序列到序列网络的第二损失函数;根据所述第一损失函数和所述第二损失函数,计算所述预设的语音合成模型的损失函数,直至所述损失函数收敛,得到语音合成模型。5.根据权利要求4所述的方法,其特征在于,所述多个说话人的语音样本包括所述多个说话人的音频数据对应的标签,所述标签包括clean标签和noise标签;所述在训练所述序列到序列网络时,计算所述序列到序列网络的第二损失函数,包括:根据所述声学特征编码向量、所述音素时长编码向量和所述噪声嵌入向量获得融合预测向量;2CN114283783A权利要求书2/3页在所述序列到序列网络的解码端对所述融合预测向量进行自回归解码,以使所述序列到序列网络在所述标签为clean标签时学习预测clean声学特征、所述标签为noise标签时学习预测noise声学特征,计算所述序列到序列网络网络的第二损失函数。6.根