预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113744713A(43)申请公布日2021.12.03(21)申请号202110925242.1(22)申请日2021.08.12(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人高占杰李文杰(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人张梦瑶(51)Int.Cl.G10L13/047(2013.01)G10L13/04(2013.01)G10L13/08(2013.01)G10L25/24(2013.01)G10L19/16(2013.01)权利要求书3页说明书11页附图6页(54)发明名称一种语音合成方法及语音合成模型的训练方法(57)摘要本公开提供了一种语音合成方法及语音合成模型的训练方法,涉及人工智能技术领域,具体涉及深度学习、语音技术等领域。具体实现方案为:获取待合成文本和至少两个待合成语音;获取至少两个待合成语音中的第一待合成语音的音色隐向量,以及第二待合成语音的风格隐向量;获取所述待合成文本的文本隐向量;将所述音色隐向量、所述风格隐向量和所述文本隐向量进行拼接,并基于拼接后的隐向量,生成所述待合成文本的目标合成语音。由此,本公开能够针对同一个待合成文本,结合音色隐向量和风格隐向量的多种不同的组合,从而生成多种不同的目标合成语音,实现了风格的迁移,使每一个音色能具备多种风格,提高了语音合成过程中的效率及可靠性。CN113744713ACN113744713A权利要求书1/3页1.一种语音合成方法,包括:获取待合成文本和至少两个待合成语音;获取所述至少两个待合成语音中的第一待合成语音的音色隐向量,以及第二待合成语音的风格隐向量;获取所述待合成文本的文本隐向量;将所述音色隐向量、所述风格隐向量和所述文本隐向量进行拼接,并基于拼接后的隐向量,生成所述待合成文本的目标合成语音。2.根据权利要求1所述的语音合成方法,其中,所述获取所述至少两个待合成语音中的第一待合成语音的音色隐向量,以及第二待合成语音的风格隐向量,包括:对所述第一待合成语音的音色进行特征提取,根据提取的所述音色的特征,生成所述第一待合成语音的所述音色隐向量;对所述第二待合成语音的风格进行特征提取,根据提取的所述风格的特征,生成所述第二待合成语音的所述风格隐向量。3.根据权利要求1所述的语音合成方法,其中,所述将所述音色隐向量、所述风格隐向量和所述文本隐向量进行拼接,包括:对所述音色隐向量、所述风格隐向量和所述文本隐向量进行维度转换,以得到具有相同维度的目标文本隐向量、目标音色隐向量和目标风格隐向量;对所述目标文本隐向量、所述目标音色隐向量和所述目标风格隐向量进行拼接。4.根据权利要求1‑3中任一项所述的语音合成方法,其中,所述获取所述至少两个待合成语音中的第一待合成语音的音色隐向量,以及第二待合成语音的风格隐向量,包括:将所述第一待合成语音和所述第二待合成语音输入至语音合成模型中;由所述语音合成模型中的音色编码网络对所述第一待合成语音进行编码,以输出所述第一待合成语音的所述音色对应的所述音色隐向量;由所述语音合成模型中的风格编码网络对所述第二待合成语音进行编码,以输出所述第二待合成语音的所述风格对应的所述风格隐向量。5.根据权利要求1所述的语音合成方法,其中,所述获取所述待合成文本的文本隐向量,包括:将所述待合成文本输入至语音合成模型中;由所述语音合成模型中的文本编码网络对所述待合成文本进行编码,以输出所述待合成文本的所述文本隐向量。6.根据权利要求1‑3中任一项所述的语音合成方法,其中,所述基于拼接后的隐向量,生成所述待合成文本的目标合成语音,包括:将所述拼接后的隐向量输入至语音合成模型中的解码网络中进行解码,以输出所述待合成文本的所述目标合成语音。7.一种语音合成模型的训练方法,包括:获取已标注语音合成样本结果的样本文本以及针对同一样本发音者的至少两个待合成样本语音,其中,所述至少两个待合成样本语音具有至少两种不同风格;将所述样本文本和所述至少两个待合成样本语音输入至待训练的语音合成模型中,输出针对所述样本文本的语音合成训练结果;2CN113744713A权利要求书2/3页获取所述语音合成样本结果和所述语音合成训练结果之间的差异,并根据所述差异对所述待训练的语音合成模型的模型参数进行调整,并返回所述获取已标注语音合成样本结果的样本文本以及针对同一样本发音者的至少两个待合成样本语音步骤,直至训练结果满足训练结束条件,将最后一次调整所述模型参数后的所述待训练的语音合成模型确定为训练好的语音合成模型。8.根据权利要求7所述的语音合成模型的训练方法,其中,所述将所述样本文本和所述至少两个待合成样本