一种语音合成模型的训练、语音合成方法及相关装置-豆柴文库

一种语音合成模型的训练、语音合成方法及相关装置.pdf

2023-07-24

10金币

1.1MB

32页

佳宁****么啦

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共32页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114187891A(43)申请公布日2022.03.15(21)申请号202210040692.7(22)申请日2022.01.14(71)申请人百果园技术（新加坡）有限公司地址新加坡巴西班让路枫树商业城30号楼15层31A(72)发明人黄家鸿李玉乐项伟(74)专利代理机构北京品源专利代理有限公司11332代理人马迪(51)Int.Cl.G10L13/02(2013.01)G10L13/033(2013.01)权利要求书3页说明书21页附图7页(54)发明名称一种语音合成模型的训练、语音合成方法及相关装置(57)摘要本发明提供了一种语音合成模型的训练、语音合成方法及相关装置，该方法包括：获取原始频谱信号、说话者的音色嵌入特征，原始频谱信号转换自说话者按照文本信息说话时记录的原始语音信号，在声纹网络中，将原始频谱信号编码为声纹特征，声纹特征用于验证说话者的身份，在音色支持网络中，将原始频谱信号编码为音色补充特征，音色补充特征为声纹特征在音色上缺失的特征，将声纹特征与音色补充特征融合为音色总量特征，在音色嵌入特征修正音色总量特征的条件下，根据音色总量特征、原始频谱信号训练声学网络、音色支持网络。保证特征在音色上的全面性，从而拟合出高质量的频谱信号，提高拟合的频谱信号与作为目标的频谱信号在音色上的相似度。CN114187891ACN114187891A权利要求书1/3页1.一种语音合成模型的训练方法，其特征在于，所述语音合成模型包括声纹网络、音色支持网络、声学网络，所述方法包括：获取原始频谱信号、说话者的音色嵌入特征，所述原始频谱信号转换自所述说话者按照文本信息说话时记录的原始语音信号；在所述声纹网络中，将所述原始频谱信号编码为声纹特征，所述声纹特征用于验证所述说话者的身份；在所述音色支持网络中，将所述原始频谱信号编码为音色补充特征，所述音色补充特征为所述声纹特征在音色上缺失的特征；将所述声纹特征与所述音色补充特征融合为音色总量特征；在所述音色嵌入特征修正所述音色总量特征的条件下，根据所述音色总量特征、所述原始频谱信号训练所述声学网络、所述音色支持网络。2.根据权利要求1所述的方法，其特征在于，所述音色支持网络包括第一卷积层、多个卷积块、长短期记忆网络；所述在所述音色支持网络中，将所述原始频谱信号编码为音色补充特征，包括：将所述原始频谱信号输入所述第一卷积层中执行卷积操作，获得第一频谱特征；对所述第一频谱特征执行第一层标准化操作，获得第二频谱特征；将所述第二频谱特征依次输入多个所述卷积块中执行卷积操作，获得第三频谱特征；将所述第三频谱特征输入所述长短期记忆网络中进行处理，获得所述声纹特征在音色上缺失的特征、作为音色补充特征。3.根据权利要求2所述的方法，其特征在于，每个所述卷积块包括第二卷积层；所述将所述第二频谱特征依次输入多个所述卷积块中执行卷积操作，获得第三频谱特征，包括：确定输入每个所述卷积块的第一候选特征，若所述卷积块排序首位，则所述第一候选特征为所述第二频谱特征，若所述卷积块排序非首位，则所述第一候选特征为上一所述卷积块输出的第三候选特征；在每个所述卷积块中，将所述第一候选特征输入所述第二卷积块中执行卷积操作，获得第二候选特征；对所述第二候选特征执行自注意力机制下的第二层标准化操作，获得第三候选特征；若所述卷积块排序非末位，则将所述第三候选特征输出至下一所述卷积块；若所述卷积块排序末位，则将所述第三候选特征作为第三频谱特征输出至所述长短期记忆网络。4.根据权利要求1所述的方法，其特征在于，所述在所述音色嵌入特征修正所述音色总量特征的条件下，根据所述音色总量特征、所述原始频谱信号训练所述声学网络、所述音色支持网络，包括：将部分所述音色嵌入特征与部分所述音色总量特征融合为音色修正特征；在所述声学网络中，拟合内容为所述文本信息、且具备所述音色修正特征的目标频谱信号；计算所述原始频谱信号与所述目标频谱信号之间差异，获得第一损失值；计算部分所述音色嵌入特征与部分所述音色总量特征之间的差异，作为第二损失值；2CN114187891A权利要求书2/3页将所述第一损失值与所述第二损失值融合为第三损失值；根据所述第三损失值更新所述声学网络、所述音色支持网络；判断是否满足预设的第一训练条件；若是，则确定所述音色支持网络完成训练；若否，则返回执行所述在所述声纹网络中，将所述原始频谱信号编码为声纹特征。5.根据权利要求4所述的方法，其特征在于，所述以所述音色总量特征作为样本、所述原始频谱信号为标签，在所述音色嵌入特征修正的条件下，训练所述声学网络、所述音色支持网络，还包括：确定批数量；按照所述批数量将所述音色嵌入特征划分为第一子嵌入特征与第二子嵌入特征；按照所述批数量

相关资料

一种语音合成模型的训练、语音合成方法及相关装置.pdf

本发明提供了一种语音合成模型的训练、语音合成方法及相关装置，该方法包括：获取原始频谱信号、说话者的音色嵌入特征，原始频谱信号转换自说话者按照文本信息说话时记录的原始语音信号，在声纹网络中，将原始频谱信号编码为声纹特征，声纹特征用于验证说话者的身份，在音色支持网络中，将原始频谱信号编码为音色补充特征，音色补充特征为声纹特征在音色上缺失的特征，将声纹特征与音色补充特征融合为音色总量特征，在音色嵌入特征修正音色总量特征的条件下，根据音色总量特征、原始频谱信号训练声学网络、音色支持网络。保证特征在音色上的全面性，

2023-07-24

1.1MB

语音转换的方法、训练语音合成模型的方法及装置.pdf

本申请提供一种语音转换的方法、训练语音合成模型的方法及装置，该方法包括，获取目标用户的待转换文本；通过语音合成模型对待转换文本进行转换，得到待转换文本对应的语音，其中，语音合成模型是根据目标用户的语言能力等级，通过语言能力等级对应的预设比例的多个语种的语音样本、多个语种的字词语音样本和多个语种的发音因素样本对基础模型进行训练得到的，不同的语言能力等级对应的预设比例不同，基础模型是通过基础预设比例的多个语种的语音样本以及多个语种的混合语音样本对通用模型进行训练得到的。通过该方法可以达到提高语音转换的准确率的

2023-07-20

507KB

语音合成模型训练和语音合成方法、装置、设备及介质.pdf

本发明公开了一种语音合成模型训练和语音合成方法、装置、设备及介质。由于样本集中的任一第一语音样本对应的文本特征，均是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的，从而实现了将第一语音样本转换为第二语言的语音样本，增加了第二语言的语音样本的数量，后续基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，即可对原始语音合成模型进行训练，从而获取到第二语言对应的目标语音合成模型，从而实现无需大量的采集第二语言的语音样本，即可获取到第二语言的目标语音合成模型。

2024-01-04

802KB

一种语音合成方法及语音合成模型的训练方法.pdf

本公开提供了一种语音合成方法及语音合成模型的训练方法，涉及人工智能技术领域，具体涉及深度学习、语音技术等领域。具体实现方案为：获取待合成文本和至少两个待合成语音；获取至少两个待合成语音中的第一待合成语音的音色隐向量，以及第二待合成语音的风格隐向量；获取所述待合成文本的文本隐向量；将所述音色隐向量、所述风格隐向量和所述文本隐向量进行拼接，并基于拼接后的隐向量，生成所述待合成文本的目标合成语音。由此，本公开能够针对同一个待合成文本，结合音色隐向量和风格隐向量的多种不同的组合，从而生成多种不同的目标合成语音，实

2023-07-25

1MB

一种语音合成模型、模型的训练方法以及语音合成方法.pdf

本发明公开了一种语音合成模型、模型的训练方法以及语音合成方法，语音合成模型包括：嵌入模块、时长预测模块、能量预测模块、音高预测模块、情感强度预测模块、编码器、特征组合模块以及解码器。对该模型进行训练包括：获取多条情感音频以及与每条情感音频对应的文本；分析情感音频，提取情感音频对应的音素；获取情感音频的真实特征；将真实特征、情感音频对应的音素以及文本输入至初始化语音合成模型完成训练。通过训练完成的语音模型完成语音合成，包括：获取目标情感音频对应的音素以及目标文本；将目标情感音频对应的音素以及目标文本输入至语

2023-07-24

676KB