语音合成方法、系统、语音合成模型及其训练方法-豆柴文库

语音合成方法、系统、语音合成模型及其训练方法.pdf

2023-07-24

10金币

608KB

17页

猫巷****永安

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113948061A(43)申请公布日2022.01.18(21)申请号202111205560.7(22)申请日2021.10.15(71)申请人宿迁硅基智能科技有限公司地址223808江苏省宿迁市湖滨新区保险小镇B19栋201室(72)发明人司马华鹏毛志强(74)专利代理机构北京弘权知识产权代理有限公司11363代理人逯长明许伟群(51)Int.Cl.G10L13/08(2013.01)G10L13/10(2013.01)G10L25/63(2013.01)权利要求书2页说明书11页附图3页(54)发明名称语音合成方法、系统、语音合成模型及其训练方法(57)摘要本申请提供一种语音合成方法、系统、语音合成模型及其训练方法，所述方法包括获取目标文本和目标文本的第一瓶颈特征；获取参考音频库，参考音频库包括若干参考音频；获取参考音频库中每一个参考音频对应的参考文本，以及，获取每一个参考文本的第二瓶颈特征；计算第一瓶颈特征与每一个参考文本的第二瓶颈特征的相似度，将与第一瓶颈特征相似度最高的第二瓶颈特征对应的参考文本确定为文本模板；将文本模板对应的参考音频确定为音频模板；将音频模板和目标文本输入预先训练的语音合成模型中，以合成具备深度情感层次特征的语音。CN113948061ACN113948061A权利要求书1/2页1.一种语音合成方法，其特征在于，包括：获取目标文本和所述目标文本的第一瓶颈特征；获取参考音频库，所述参考音频库包括若干参考音频；获取所述参考音频库中每一个所述参考音频对应的参考文本，以及，获取每一个所述参考文本的第二瓶颈特征；计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度，将与所述第一瓶颈特征相似度最高的所述第二瓶颈特征对应的参考文本确定为文本模板；将所述文本模板对应的参考音频确定为音频模板；将所述音频模板和所述目标文本输入预先训练的语音合成模型中，得到合成音频。2.根据权利要求1所述的方法，其特征在于，获取目标文本对应的第一瓶颈特征，包括：获取与情感相关的文本数据；根据所述文本数据，建立情感编码网络模型，所述情感编码网络模型用于获取输入的文本的情感特征；根据所述情感编码网络模型解析所述目标文本，获取所述目标文本的情感特征，将所述目标文本的情感特征确定为第一瓶颈特征。3.根据权利要求2所述的方法，其特征在于，获取每一个所述参考文本对应的第二瓶颈特征，包括：根据所述情感编码网络模型解析每一个所述参考文本，获取每一个所述参考文本的情感特征，将所述参考文本的情感特征确定为第二瓶颈特征。4.根据权利要求1所述的方法，其特征在于，获取目标文本对应的第一瓶颈特征，包括：获取与风格相关的文本数据；根据所述文本数据，建立风格编码网络模型，所述风格编码网络模型用于获取输入的文本的风格特征；根据所述风格编码网络模型解析所述目标文本，获取所述目标文本的风格特征，将所述目标文本的风格特征确定为第一瓶颈特征。5.据权利要求4所述的方法，其特征在于，获取每一个所述参考文本对应的第二瓶颈特征，包括：根据所述风格编码网络模型解析每一个所述参考文本，获取每一个所述参考文本的风格特征，将所述参考文本的风格特征确定为第二瓶颈特征。6.一种语音合成系统，其特征在于，所述系统被配置为：获取目标文本和所述目标文本的第一瓶颈特征；获取参考音频库，所述参考音频库包括若干参考音频；获取所述参考音频库中每一个所述参考音频对应的参考文本，以及，获取每一个所述参考文本的第二瓶颈特征；计算所述第一瓶颈特征与每一个所述参考文本的第二瓶颈特征的相似度，将与所述第一瓶颈特征相似度最高的所述第二瓶颈特征对应的参考文本确定为文本模板；将所述文本模板对应的参考音频确定为音频模板；将所述音频模板和所述目标文本输入预先训练的语音合成模型中，得到合成音频。7.一种语音合成模型，应用于权利要求1‑5任一项所述的方法和权利要求6所述的系统2CN113948061A权利要求书2/2页中，其特征在于，包括编码器模块、特征提取模块、时长预测模块、时长采样模块、基频预测模块、解码器模块以及声码器模块，其中：所述编码器模块用于获取输入的目标文本的文本序列，所述目标文本的文本序列是所述目标文本的音素合集，将所述文本序列转换为对应的文本编码；所述特征提取模块用于根据输入的音频模板，获取所述音频模板的第三瓶颈特征，所述第三瓶颈特征至少包括所述音频模板的情感特征、风格特征中的一种；所述时长预测模块用于根据所述文本编码和所述第三瓶颈特征，获取所述文本编码的预测时长，所述文本编码的预测时长是通过预测得到的所述文本编码每一帧对应的发音时长；所述时长采样模块用于根据所述特征提取模块和所述时长预测模块的输出，对所述文本编码进行上采样

相关资料

语音合成方法、系统、语音合成模型及其训练方法.pdf

本申请提供一种语音合成方法、系统、语音合成模型及其训练方法，所述方法包括获取目标文本和目标文本的第一瓶颈特征；获取参考音频库，参考音频库包括若干参考音频；获取参考音频库中每一个参考音频对应的参考文本，以及，获取每一个参考文本的第二瓶颈特征；计算第一瓶颈特征与每一个参考文本的第二瓶颈特征的相似度，将与第一瓶颈特征相似度最高的第二瓶颈特征对应的参考文本确定为文本模板；将文本模板对应的参考音频确定为音频模板；将音频模板和目标文本输入预先训练的语音合成模型中，以合成具备深度情感层次特征的语音。

2023-07-24

608KB

一种语音合成方法及语音合成模型的训练方法.pdf

本公开提供了一种语音合成方法及语音合成模型的训练方法，涉及人工智能技术领域，具体涉及深度学习、语音技术等领域。具体实现方案为：获取待合成文本和至少两个待合成语音；获取至少两个待合成语音中的第一待合成语音的音色隐向量，以及第二待合成语音的风格隐向量；获取所述待合成文本的文本隐向量；将所述音色隐向量、所述风格隐向量和所述文本隐向量进行拼接，并基于拼接后的隐向量，生成所述待合成文本的目标合成语音。由此，本公开能够针对同一个待合成文本，结合音色隐向量和风格隐向量的多种不同的组合，从而生成多种不同的目标合成语音，实

2023-07-25

1MB

语音合成系统的训练方法、装置及语音合成方法、装置.pdf

本发明提出一种语音合成系统的训练方法、装置及语音合成方法、装置，属于语音人机交互领域，采用声韵母与音调独立建模，可使语音合成系统仅需较少的训练语料就能覆盖全建模单元。所述方法包括：采集目标发音人的训练语音形成训练音频，并对训练音频进行文本标注；将获得的文本标注转化为发音单元标注，发音单元标注包括对应的声母和带声调的韵母；将发音单元标注拆解并转化为不带音调的发音单元向量和音调向量；基于训练音频、发音单元向量和音调向量，形成训练语音合成系统的训练样本。本发明采用声韵母与音调独立建模，可使语音合成系统仅需较少的

2023-07-24

606KB

一种语音合成模型、模型的训练方法以及语音合成方法.pdf

本发明公开了一种语音合成模型、模型的训练方法以及语音合成方法，语音合成模型包括：嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器。对该模型进行训练包括：获取多条情感音频以及与每条情感音频对应的文本；分析情感音频，提取情感音频对应的音素；获取情感音频的真实特征；将真实特征、情感音频对应的音素以及文本输入至初始化语音合成模型完成训练。通过训练完成的语音模型完成语音合成，包括：获取目标情感音频对应的音素以及目标文本；将目标情感音频对应的音素以及目标文本输入至语

2023-07-24

676KB

语音合成模型的训练方法、合成方法、系统、设备和介质.pdf

本发明公开了一种语音合成模型的训练方法、合成方法、系统、设备和介质，该训练方法包括：获取若干个历史文本信息及其历史语音信息；获取历史文本信息的历史文本向量；基于CNN网络和双向LSTM网络构建初始声学模型；基于历史文本向量及其历史语音信息的第一梅尔谱，对初始声学模型进行模型训练以得到目标声学模型；基于第二梅尔谱以及历史语音信息，对预设神经网络模型进行模型训练以得到目标声码器模型。本发明中通过基于CNN网络、双向LSTM网络以及线性层搭建声学模型，基于生成式对抗网络GAN构建声码器模型，实现在保证语音合成质

2023-06-25

1MB