预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112820266A(43)申请公布日2021.05.18(21)申请号202011599744.1(22)申请日2020.12.29(71)申请人中山大学地址510275广东省广州市海珠区新港西路135号(72)发明人廖至铨潘嵘(74)专利代理机构广州粤高专利商标代理有限公司44102代理人陈伟斌(51)Int.Cl.G10L13/02(2013.01)G10L25/18(2013.01)G10L25/30(2013.01)权利要求书2页说明书4页附图2页(54)发明名称一种基于跳跃编码器的并行端到端语音合成方法(57)摘要本发明涉及语音合成技术领域,具体涉及一种基于跳跃编码器的并行端到端语音合成方法,包括以下步骤:步骤一:将文本与韵律标记一起输入到编码器模块;步骤二:将编码器的输出输入到跳跃编码器,跳过输出序列中韵律标记对应时间步的特征,保留文本内容对应的隐特征;步骤三:通过FastSpeech的时长模型对得到的文本隐特征进行扩充;步骤四:将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码,得到合成语音的频谱特征;步骤五:使用声码器将频谱特征映射为声音波形,得到合成的语音。本发明的基于跳跃编码器的并行端到端语音合成方法,引入了跳跃编码器,同时实现了语音合成系统中高效率以及高自然度的要求。CN112820266ACN112820266A权利要求书1/2页1.一种基于跳跃编码器的并行端到端语音合成方法,其特征在于,包括以下步骤:步骤一:将文本与韵律标记一起输入到编码器模块;步骤二:将编码器的输出输入到跳跃编码器,跳过输出序列中韵律标记对应时间步的特征,保留文本内容对应的隐特征;步骤三:通过FastSpeech的时长模型对得到的文本隐特征进行扩充;步骤四:将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码,得到合成语音的频谱特征;步骤五:使用声码器将频谱特征映射为声音波形,得到合成的语音。2.根据权利要求1所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,包括以下流程:S1、获取训练样本;S2、进行模型训练阶段;S3、进行模型预测阶段;S4、根据实际应用场景与合成语音的效果,对各个模块的参数进行调整,使语音质量符合要求。3.根据权利要求2所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S1中,所述样本形式为文本、时长、频谱。4.根据权利要求3所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,文本中带有韵律标记,不同韵律标记的符号按实际情况确定,韵律标记为标注或使用韵律模型生成,时长部分由标注得到或者使用音字对齐模型获取。5.根据权利要求4所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,所述韵律标记包括韵律词、韵律短语以及语调短语。6.根据权利要求5所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S2中,还包括以下流程:S21、初始化模型各模块的参数,文本经过前端模块转化为带韵律标记的音素序列,计算得到编码后的隐特征,接着经过跳跃编码器,内部通过掩码操作过滤不参与解码的隐特征,得到实际参与解码的文本对应的隐特征;S22、使用训练数据中的时长特征对隐特征进行扩增,与目标频谱进行对齐;S23、生成频谱;S24、据实际需要设计误差函数与更新策略,训练至模型收敛。7.根据权利要求6所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S21中,文本经过前端模块转化为带韵律标记的音素序列,经过基于LSTM或者Transformer的编码器计算得到编码后的隐特征。8.根据权利要求7所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S23中,经过FastSpeech的解码器生成频谱。9.根据权利要求8所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在流程S3中,主要流程内容为:扩增隐特征所需要的时长,由训练好的时长模型进行预测,其余流程与模型训练阶段相同,得到生成的频谱后使用预训练的声码器模型或相位恢复算法得到最终的合成语音。2CN112820266A权利要求书2/2页10.根据权利要求1至9中任一项所述的基于跳跃编码器的并行端到端语音合成方法,其特征在于,在步骤S1中,所述编码器模块为Tacotron2的编码器模块或FastSpeech的编码器模块。3CN112820266A说明书1/4页一种基于跳跃编码器的并行端到端语音合成方法技术领域[0001]本发明涉及语音合成技术领域,具体涉及一种基于跳跃编码器的并行端到端语音合成方法。背景技术[0002]Text‑to‑speech语音合成是将输