一种语音合成模型、模型的训练方法以及语音合成方法-豆柴文库

一种语音合成模型、模型的训练方法以及语音合成方法.pdf

2023-07-24

10金币

676KB

20页

和裕****az

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共20页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113920977A(43)申请公布日2022.01.11(21)申请号202111165153.8G10L25/03(2013.01)(22)申请日2021.09.30(71)申请人宿迁硅基智能科技有限公司地址223808江苏省宿迁市湖滨新区保险小镇B19栋201室(72)发明人司马华鹏毛志强田晓晖(74)专利代理机构北京弘权知识产权代理有限公司11363代理人逯长明许伟群(51)Int.Cl.G10L13/02(2013.01)G10L13/033(2013.01)G10L13/08(2013.01)G10L25/24(2013.01)G10L25/30(2013.01)权利要求书3页说明书11页附图5页(54)发明名称一种语音合成模型、模型的训练方法以及语音合成方法(57)摘要本发明公开了一种语音合成模型、模型的训练方法以及语音合成方法，语音合成模型包括：嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器。对该模型进行训练包括：获取多条情感音频以及与每条情感音频对应的文本；分析情感音频，提取情感音频对应的音素；获取情感音频的真实特征；将真实特征、情感音频对应的音素以及文本输入至初始化语音合成模型完成训练。通过训练完成的语音模型完成语音合成，包括：获取目标情感音频对应的音素以及目标文本；将目标情感音频对应的音素以及目标文本输入至语音合成模型中，得到目标声学特征；将目标声学特征还原成目标文本对应的音频。CN113920977ACN113920977A权利要求书1/3页1.一种语音合成模型，其特征在于，包括嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器，其中：所述嵌入模块用于对待合成文本进行预处理，所述预处理包括对所述待合成文本的正则化处理、拼音转音素、多音字消岐、韵律预测；所述时长预测模块用于对目标音频中的每个音素的发音时长进行预测，得到音素时长特征预测值；所述能量预测模块用于对所述目标音频中的能量进行预测，得到能量特征预测值；所述音高预测模块用于对所述目标音频中的音高进行预测，得到音高特征预测值；所述情感强度预测模块用于对所述目标音频中的情感强度进行预测，得到情感强度特征预测值；所述编码器用于提取所述待合成文本的文本特征；所述特征组合模块用于将所述文本特征与所述音素时长特征预测值、能量特征预测值、音高特征预测值、情感强度特征预测值进行组合拼接得到组合特征；所述解码器用于将所述组合特征经过解码获得目标声学特征。2.一种语音合成模型的训练方法，应用于权利要求1所述的模型中，其特征在于，包括：获取训练数据，所述训练数据包括多条情感音频以及与每条所述情感音频对应的文本；分析所述情感音频，提取所述情感音频对应的音素；获取所述情感音频的真实特征，所述真实特征包括音素时长特征、能量特征、音高特征、情感强度特征；将所述真实特征、所述情感音频对应的音素以及所述文本输入至初始化语音合成模型，所述初始化语音合成模型根据初始模型参数执行以下步骤：对所述文本进行预处理，包括文本的正则化处理、拼音转音素、多音字消歧以及韵律预测；根据预处理的文本，获取所述文本的文本序列，将所述文本序列转换为对应的编码值；获取所述音素的预测特征，所述预测特征包括预测音素时长特征、预测能量特征、预测音高特征、预测情感强度特征；根据所述真实特征与所述预测特征计算损失函数；根据所述预测特征与所述编码值获取声学特征，所述声学特征为梅尔频谱特征，并根据所述损失函数与所述声学特征优化所述初始模型参数，直至达到模型收敛条件，完成训练，生成目标语音合成模型。3.根据权利要求2所述的方法，其特征在于，获取所述情感音频的情感强度特征，包括：通过所述文本，获取任一条所述情感音频对应的拼音；使用音素对齐工具获取所述拼音在所述情感音频中的起始和终止时间；根据所述拼音的起始和终止时间，将所述情感音频分割为多个子音频；根据所述子音频获取所述情感音频的情感强度特征。4.根据权利要求2所述的方法，其特征在于，获取所述音素的预测特征，包括：分析所述情感音频，提取所述情感音频对应的音素；对所述文本进行预处理，所述预处理包括对所述文本的正则化处理、拼音转音素、多音2CN113920977A权利要求书2/3页字消歧以及韵律预测；分析所述文本，提取所述文本的文本特征，所述文本特征为所述文本对应的音素；将所述情感音频对应的音素以及所述文本输入至初始化语音合成模型；对所述情感音频中的每个音素的发音时长进行预测，得到对应的预测音素时长特征，对每个所述音素的能量、音高、情感强度进行预测，得到对应的预测能量特征、预测音高特征以及预测情感强度特征

相关资料

一种语音合成模型、模型的训练方法以及语音合成方法.pdf

本发明公开了一种语音合成模型、模型的训练方法以及语音合成方法，语音合成模型包括：嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器。对该模型进行训练包括：获取多条情感音频以及与每条情感音频对应的文本；分析情感音频，提取情感音频对应的音素；获取情感音频的真实特征；将真实特征、情感音频对应的音素以及文本输入至初始化语音合成模型完成训练。通过训练完成的语音模型完成语音合成，包括：获取目标情感音频对应的音素以及目标文本；将目标情感音频对应的音素以及目标文本输入至语

2023-07-24

676KB

一种语音合成方法及语音合成模型的训练方法.pdf

本公开提供了一种语音合成方法及语音合成模型的训练方法，涉及人工智能技术领域，具体涉及深度学习、语音技术等领域。具体实现方案为：获取待合成文本和至少两个待合成语音；获取至少两个待合成语音中的第一待合成语音的音色隐向量，以及第二待合成语音的风格隐向量；获取所述待合成文本的文本隐向量；将所述音色隐向量、所述风格隐向量和所述文本隐向量进行拼接，并基于拼接后的隐向量，生成所述待合成文本的目标合成语音。由此，本公开能够针对同一个待合成文本，结合音色隐向量和风格隐向量的多种不同的组合，从而生成多种不同的目标合成语音，实

2023-07-25

1MB

语音合成方法、系统、语音合成模型及其训练方法.pdf

本申请提供一种语音合成方法、系统、语音合成模型及其训练方法，所述方法包括获取目标文本和目标文本的第一瓶颈特征；获取参考音频库，参考音频库包括若干参考音频；获取参考音频库中每一个参考音频对应的参考文本，以及，获取每一个参考文本的第二瓶颈特征；计算第一瓶颈特征与每一个参考文本的第二瓶颈特征的相似度，将与第一瓶颈特征相似度最高的第二瓶颈特征对应的参考文本确定为文本模板；将文本模板对应的参考音频确定为音频模板；将音频模板和目标文本输入预先训练的语音合成模型中，以合成具备深度情感层次特征的语音。

2023-07-24

608KB

一种语音合成模型的训练方法、装置、设备以及存储介质.pdf

本公开关于一种语音合成模型的训练方法、装置、设备以及存储介质，涉及计算机技术领域。本公开实施例至少解决相关技术中，训练到的语音合成模型不是最优的问题。该方法包括：确定连续训练得到目标语音合成模型的目标训练次数；目标语音合成模型的损失值大于或者等于当前最小损失值；当前最小损失值为连续训练得到的损失值中的最小值；在目标训练次数大于或者等于训练次数阈值的情况下，降低语音合成模型的当前丢弃率以及当前学习率；基于降低后的当前丢弃率以及降低后的当前学习率，训练得到下一语音合成模型。

2023-07-24

775KB

一种语音合成模型的训练、语音合成方法及相关装置.pdf

本发明提供了一种语音合成模型的训练、语音合成方法及相关装置，该方法包括：获取原始频谱信号、说话者的音色嵌入特征，原始频谱信号转换自说话者按照文本信息说话时记录的原始语音信号，在声纹网络中，将原始频谱信号编码为声纹特征，声纹特征用于验证说话者的身份，在音色支持网络中，将原始频谱信号编码为音色补充特征，音色补充特征为声纹特征在音色上缺失的特征，将声纹特征与音色补充特征融合为音色总量特征，在音色嵌入特征修正音色总量特征的条件下，根据音色总量特征、原始频谱信号训练声学网络、音色支持网络。保证特征在音色上的全面性，

2023-07-24

1.1MB