语音转换的方法、训练语音合成模型的方法及装置-豆柴文库

语音转换的方法、训练语音合成模型的方法及装置.pdf

2023-07-20

10金币

507KB

17页

Do****76

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115359776A(43)申请公布日2022.11.18(21)申请号202211018396.3G10L25/03(2013.01)(22)申请日2022.08.24G10L25/30(2013.01)(71)申请人阳光保险集团股份有限公司地址518000广东省深圳市福田区红荔西路7002号第一世界广场A座17层(72)发明人蔡岩松杜新凯李亚楠牛国扬邓钊(74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙)11463专利代理师刘攀(51)Int.Cl.G10L13/02(2013.01)G10L13/033(2013.01)G10L13/06(2013.01)G10L13/08(2013.01)权利要求书2页说明书11页附图3页(54)发明名称语音转换的方法、训练语音合成模型的方法及装置(57)摘要本申请提供一种语音转换的方法、训练语音合成模型的方法及装置，该方法包括，获取目标用户的待转换文本；通过语音合成模型对待转换文本进行转换，得到待转换文本对应的语音，其中，语音合成模型是根据目标用户的语言能力等级，通过语言能力等级对应的预设比例的多个语种的语音样本、多个语种的字词语音样本和多个语种的发音因素样本对基础模型进行训练得到的，不同的语言能力等级对应的预设比例不同，基础模型是通过基础预设比例的多个语种的语音样本以及多个语种的混合语音样本对通用模型进行训练得到的。通过该方法可以达到提高语音转换的准确率的效果。CN115359776ACN115359776A权利要求书1/2页1.一种语音转换的方法，其特征在于，包括：获取目标用户的待转换文本；通过语音合成模型对所述待转换文本进行转换，得到所述待转换文本对应的语音，其中，所述语音合成模型是根据所述目标用户的语言能力等级，通过所述语言能力等级对应的预设比例的多个语种的语音样本、所述多个语种的字词语音样本和所述多个语种的发音因素样本对基础模型进行训练得到的，不同的所述语言能力等级对应的所述预设比例不同，所述基础模型是通过基础预设比例的所述多个语种的语音样本以及所述多个语种的混合语音样本对通用模型进行训练得到的。2.根据权利要求1所述的方法，其特征在于，所述语言能力等级，包括：第一语言能力等级、第二语言能力等级和第三语言能力等级，其中，所述第一语言能力等级表示所述目标用户掌握所述多个语种，所述第二语言能力等级表示所述目标用户掌握所述多个语种中的部分语种，所述第三语言能力等级表示所述目标用户未掌握所述多个语种中的任一种。3.根据权利要求1或2所述的方法，其特征在于，所述获取目标用户的待转换文本，包括：将初始待转换文本进行预处理，得到所述待转换文本，其中，所述预处理包括以下处理方法中的至少一个：清洗、删除、截取和补全。4.根据权利要求1或2所述的方法，其特征在于，在所述获取目标用户的待转换文本之前，所述方法还包括：获取所述目标用户的所述语言能力等级和所述语言能力等级对应的所述预设比例的所述多个语种的语音样本、所述多个语种的字词语音样本和所述多个语种的发音因素样本；利用基础预设比例的所述多个语种的语音样本以及所述多个语种的混合语音样本对所述通用模型进行训练，得到所述基础模型；利用所述预设比例的所述多个语种的语音样本、所述多个语种的字词语音样本和所述多个语种的发音因素样本对所述基础模型进行训练，得到所述语音合成模型。5.一种训练语音合成模型的方法，其特征在于，包括：通过基础预设比例的多个语种的语音样本以及所述多个语种的混合语音样本对通用模型进行训练，得到基础模型；通过目标用户的语言能力等级对应的预设比例的所述多个语种的语音样本、所述多个语种的字词语音样本和所述多个语种的发音因素样本对所述基础模型进行训练，得到语音合成模型，其中，不同的所述语言能力等级对应的预设比例不同。6.根据权利要求5所述的方法，其特征在于，在所述通过目标用户的语言能力等级对应的预设比例的所述多个语种的语音样本、所述多个语种的字词语音样本和所述多个语种的发音因素样本对所述基础模型进行训练，得到语音合成模型之后，所述方法还包括：向所述语音合成模型中嵌入所述目标用户的性别信息、音色特征信息和边界信息，其中，所述边界信息用于标识语音样本中语音语种是否相同。7.一种语音转换的装置，其特征在于，包括：获取模块，用于获取目标用户的待转换文本；2CN115359776A权利要求书2/2页转换模块，用于通过语音合成模型对所述待转换文本进行转换，得到所述待转换文本对应的语音，其中，所述语音合成模型是根据所述目标用户的语言能力等级，通过所述语言能力等级对应的预设比例的多个语种的语音样本、所述多个语种的字词语音样本和所述多个语种的发音因素样本对基础模型进行训练得到的，不同的所述

相关资料

语音转换的方法、训练语音合成模型的方法及装置.pdf

本申请提供一种语音转换的方法、训练语音合成模型的方法及装置，该方法包括，获取目标用户的待转换文本；通过语音合成模型对待转换文本进行转换，得到待转换文本对应的语音，其中，语音合成模型是根据目标用户的语言能力等级，通过语言能力等级对应的预设比例的多个语种的语音样本、多个语种的字词语音样本和多个语种的发音因素样本对基础模型进行训练得到的，不同的语言能力等级对应的预设比例不同，基础模型是通过基础预设比例的多个语种的语音样本以及多个语种的混合语音样本对通用模型进行训练得到的。通过该方法可以达到提高语音转换的准确率的

2023-07-20

507KB

语音转换模型训练方法及装置、语音转换方法及装置.pdf

本发明涉及语音转换领域的语音转换模型训练方法及装置、语音转换方法及装置，模型训练方法，包括步骤：获取第一语音和与所述第一语音内容相同的文本数据，以所述文本数据计算第一内容特征；提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量；将所述第一隐变量和所述第一说话人特征输入流模型，以所述第一说话人特征为条件，计算输出第二说话特征，以第二说话特征和第一内容特征计算损失函数，提取达到预设优化参量后的第一隐变量，将优化后的第一隐变量输入解码器得到预测语音。本发明技术很好地保留

2023-11-05

353KB

语音转换模型训练方法、语音转换方法及装置、设备.pdf

本申请涉及语音处理技术领域，提供了一种语音转换模型训练方法、语音转换方法及装置、设备，语音转换模型训练方法包括：获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本，并将其输入到语音转换模型得到对应的第一说话人特征向量、第二说话人特征向量以及第三说话人特征向量，确定第一说话人特征向量与第二说话人特征向量之间的第一相似度值，第三说话人特征向量与第一说话人特征向量或者第二说话人特征向量之间的第二相似度值，并以最大化第一相似度值，最小化第二相似度值为训练目标，对语音转换模型进

2023-07-21

918KB

语音合成模型训练和语音合成方法、装置、设备及介质.pdf

本发明公开了一种语音合成模型训练和语音合成方法、装置、设备及介质。由于样本集中的任一第一语音样本对应的文本特征，均是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的，从而实现了将第一语音样本转换为第二语言的语音样本，增加了第二语言的语音样本的数量，后续基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，即可对原始语音合成模型进行训练，从而获取到第二语言对应的目标语音合成模型，从而实现无需大量的采集第二语言的语音样本，即可获取到第二语言的目标语音合成模型。

2024-01-04

802KB

一种语音合成模型的训练、语音合成方法及相关装置.pdf

本发明提供了一种语音合成模型的训练、语音合成方法及相关装置，该方法包括：获取原始频谱信号、说话者的音色嵌入特征，原始频谱信号转换自说话者按照文本信息说话时记录的原始语音信号，在声纹网络中，将原始频谱信号编码为声纹特征，声纹特征用于验证说话者的身份，在音色支持网络中，将原始频谱信号编码为音色补充特征，音色补充特征为声纹特征在音色上缺失的特征，将声纹特征与音色补充特征融合为音色总量特征，在音色嵌入特征修正音色总量特征的条件下，根据音色总量特征、原始频谱信号训练声学网络、音色支持网络。保证特征在音色上的全面性，

2023-07-24

1.1MB