预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115985289A(43)申请公布日2023.04.18(21)申请号202211582420.6(22)申请日2022.12.09(71)申请人中国科学院声学研究所地址100190北京市海淀区北四环西路21号(72)发明人王丽尚增强张鹏远(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309专利代理师陈霁(51)Int.Cl.G10L13/08(2013.01)G10L25/30(2013.01)G10L19/16(2013.01)权利要求书2页说明书7页附图3页(54)发明名称一种端到端语音合成方法和装置(57)摘要本发明涉及一种端到端语音合成方法,所述方法具体包括:构建包括HAE、HCE、HAD的层级条件变分自编码器模型;以最大化证据下界为训练目标,训练所述模型;合成语音波形。还涉及了装置,包括HAE、HCE、HAD、训练模块;其中,HAE包括:帧级、音素级、子词级、词级、句子级五级语音编码器,第一仿射模块;HCE包括:语言学表征提取模块、子词级、词级、句子级三级文本编码器;HAD包括:句子级、词级、子词级、音素级、帧级五级解码器,第二仿射模块。本发明的方法和装置,提升了合成语音的整体质量、自然性,以及韵律表现力。CN115985289ACN115985289A权利要求书1/2页1.一种端到端语音合成方法,其特征在于,包括:构建包括HAE、HCE、HAD的层级条件变分自编码器模型;以最大化证据下界为训练目标,训练所述模型,包括:HCE从文本样本中提取音素级语言学表征和字符级语言学表征,并依据提取的语言学表征逐级下采样获得子词级、词级、句子级语言学表征,并将音素级、子词级、词级语言学表征输入给HAE、HAD作为获取各自下一级表征的监督信息;HAE从文本样本对应的线性谱中提取帧级表征,然后自帧级表征起对各级表征逐级下采样获得音素级、子词级、词级和句子级表征,利用仿射变换从各级表征获得相应的各级隐变量;其中,下采样获得子词级表征时采用了音素时长;HAD将句子级语言学表征和HAE输入的句子级隐变量的特征组合上采样获得词级表征,然后自词级起逐级对各级表征和HAE输入的与该级表征相应级隐变量的特征组合上采样获得子词、音素和帧级表征,利用仿射变换从句子级语言学表征和上采样获得的各级表征获得相应的各级隐变量;依据帧级表征的和HAE输入的帧级隐变量的特征组合重建语音波形;其中,上采样获得音素级表征时重建音素时长;合成语音波形,包括:HCE从待合成文本中提取音素级语言学表征和字符级语言学表征,并依据提取的语言学表征逐级下采样获得子词级、词级和句子级语言学表征,并将音素级、子词级、词级语言学表征输入给HAD作为获取各自下一级表征的监督信息;HAD利用仿射变换从句子级语言学表征获得句子级隐变量;将句子级隐变量和句子级语言学表征的特征组合上采样获得词级表征,然后自词级起逐级对各级表征和与该级表征相应级隐变量的特征组合上采样获得子词、音素和帧级表征;利用仿射变换从各级表征获得相应的各级隐变量;依据帧级隐变量和帧级表征的特征组合合成语音波形;其中,上采样获得音素级表征时重建音素时长。2.根据权利要求1所述的方法,其特征在于,在训练期间逐渐增大各级KL的权重,且保持句子级KL的权重<词级KL的权重<子词级KL的权重<音素级KL的权重<帧级KL的权重,直至帧级KL的权重增大至1。3.一种端到端语音合成装置,其特征在于,包括HAE、HCE、HAD、训练模块;其中,HAE包括:帧级、音素级、子词级、词级、句子级五级语音编码器,第一仿射模块;HCE包括:语言学表征提取模块、子词级、词级、句子级三级文本编码器;HAD包括:句子级、词级、子词级、音素级、帧级五级解码器,第二仿射模块;训练模块,用于将训练目标设定为最大化证据下界,在达到训练目标时,终止训练;语言学表征提取模块,用于从文本样本/待合成文本中提取音素级语言学表征和字符级语言学表征;并在模型训练时用于将音素级语言学表征输入给HAE、HAD作为获取子词表征的监督信息,在训练完成进行语音合成时用于将音素级语言学表征输入给HAD作为获取子词表征的监督信息;子词级、词级、句子级文本编码器,用于依据提取的语言学表征逐级下采样获得子词级、词级、句子级语言学表征;并在模型训练时用于将子词级、词级级语言学表征输入给HAE、HAD作为获取各自下一级表征的监督信息,在训练完成进行语音合成时用于将子词级、词级级语言学表征输入给HAD作为获取各自下一级表征的监督信息;2CN115985289A权利要求书2/2页帧级语音编码器,用于从文本样本对应的线性谱中提取帧级表征;音素级、子词级、词级、句子级语音编码器,用于自帧级表征起对各级表征逐级下采样获得音素