预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111627418A(43)申请公布日2020.09.04(21)申请号202010463946.7(22)申请日2020.05.27(71)申请人携程计算机技术(上海)有限公司地址200335上海市长宁区福泉路99号携程网络技术大楼(72)发明人周明康罗超吉聪睿李巍胡泓(74)专利代理机构上海弼兴律师事务所31283代理人薛琦林嵩(51)Int.Cl.G10L13/02(2013.01)G10L13/04(2013.01)G10L13/08(2013.01)G06N3/04(2006.01)权利要求书3页说明书12页附图9页(54)发明名称语音合成模型的训练方法、合成方法、系统、设备和介质(57)摘要本发明公开了一种语音合成模型的训练方法、合成方法、系统、设备和介质,该训练方法包括:获取若干个历史文本信息及其历史语音信息;获取历史文本信息的历史文本向量;基于CNN网络和双向LSTM网络构建初始声学模型;基于历史文本向量及其历史语音信息的第一梅尔谱,对初始声学模型进行模型训练以得到目标声学模型;基于第二梅尔谱以及历史语音信息,对预设神经网络模型进行模型训练以得到目标声码器模型。本发明中通过基于CNN网络、双向LSTM网络以及线性层搭建声学模型,基于生成式对抗网络GAN构建声码器模型,实现在保证语音合成质量的同时,大大地提升了语音合成速度,从而能够满足电商平台对大量外呼的需求。CN111627418ACN111627418A权利要求书1/3页1.一种语音合成模型的训练方法,其特征在于,所述训练方法包括:获取若干个历史文本信息以及所述历史文本信息对应的历史语音信息;获取每个所述历史文本信息对应的历史文本向量;基于CNN网络和双向LSTM网络构建初始声学模型;基于所述历史文本向量以及所述历史文本向量对应的所述历史语音信息的第一梅尔谱,对所述初始声学模型进行模型训练以得到目标声学模型;其中,所述目标声学模型用于输出每个所述历史文本信息对应的第二梅尔谱;基于所述第二梅尔谱以及所述历史语音信息,对预设神经网络模型进行模型训练以得到目标声码器模型;其中,所述语音合成模型包括所述目标声学模型和所述目标声码器模型。2.如权利要求1所述的语音合成模型的训练方法,其特征在于,所述基于CNN网络和双向LSTM网络构建初始声学模型的步骤包括:通过第一CNN网络、第二CNN网络、第一双向LSTM网络和第二双向LSTM网络依次连接以形成所述初始声学模型的编码器结构;通过第三CNN网络、第三双向LSTM网络、第四双向LSTM网络、第五双向LSTM网络和线性层依次连接以形成所述初始声学模型的解码器结构;其中,所述第二双向LSTM网络的输出与所述第三双向LSTM网络的输入连接;所述第一CNN网络用于输入所述历史文本向量;所述第三CNN网络用于输入所述历史语音信息的所述第一梅尔谱;所述线性层用于输出每个所述历史文本信息对应的所述第二梅尔谱。3.如权利要求1所述的语音合成模型的训练方法,其特征在于,所述基于所述第二梅尔谱以及所述历史语音信息,对预设神经网络模型进行模型训练以得到目标声码器模型的步骤包括:基于生成式对抗网络构建初始声码器模型;其中,所述初始声码器模型包括生成模型和判别模型;采用所述生成模型将所述第二梅尔谱转换为预测语音信息;采用所述判别模型计算得到同一所述历史文本信息对应的所述预测语音信息相对于所述历史语音信息的损失度,并在所述损失度不满足预设条件时进行迭代处理,直至所述损失度满足所述预设条件以得到所述目标声码器模型。4.如权利要求3所述的语音合成模型的训练方法,其特征在于,所述生成模型包括多个依次连接第一全卷积网络结构;所述判别模型包括多个依次连接第二全卷积网络结构;其中,所述第一全卷积网络结构和所述第二全卷积网络结构均包括多个CNN网络。5.如权利要求1所述的语音合成模型的训练方法,其特征在于,所述获取每个所述历史文本信息对应的历史文本向量的步骤包括:对所述历史文本信息进行预处理;对预处理后的所述历史文本信息进行分词处理,获取多个分词;获取每个所述分词中每个文字的音节信息和声调信息;对所述音节信息和所述声调信息进行转换处理以得到对应的数字序列;2CN111627418A权利要求书2/3页通过embedding层将每个所述历史文本信息对应的所述数字序列转换成对应的所述历史文本向量。6.一种语音合成方法,其特征在于,所述语音合成方法采用权利要求1-5中任意一项所述的语音合成模型的训练方法实现,所述语音合成方法包括:获取目标文本信息;根据所述目标文本信息生成目标文本向量;将所述目标文本向量输入至所述语音合成模型中的所述目标声学模型,通过所述目标声学模型根据输入的所述目标文本向量