一种基于跳跃编码器的并行端到端语音合成方法-豆柴文库

一种基于跳跃编码器的并行端到端语音合成方法.pdf

2023-11-09

10金币

428KB

9页

海昌****姐淑

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112820266A(43)申请公布日2021.05.18(21)申请号202011599744.1(22)申请日2020.12.29(71)申请人中山大学地址510275广东省广州市海珠区新港西路135号(72)发明人廖至铨潘嵘(74)专利代理机构广州粤高专利商标代理有限公司44102代理人陈伟斌(51)Int.Cl.G10L13/02(2013.01)G10L25/18(2013.01)G10L25/30(2013.01)权利要求书2页说明书4页附图2页(54)发明名称一种基于跳跃编码器的并行端到端语音合成方法(57)摘要本发明涉及语音合成技术领域，具体涉及一种基于跳跃编码器的并行端到端语音合成方法，包括以下步骤：步骤一：将文本与韵律标记一起输入到编码器模块；步骤二：将编码器的输出输入到跳跃编码器，跳过输出序列中韵律标记对应时间步的特征，保留文本内容对应的隐特征；步骤三：通过FastSpeech的时长模型对得到的文本隐特征进行扩充；步骤四：将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码，得到合成语音的频谱特征；步骤五：使用声码器将频谱特征映射为声音波形，得到合成的语音。本发明的基于跳跃编码器的并行端到端语音合成方法，引入了跳跃编码器，同时实现了语音合成系统中高效率以及高自然度的要求。CN112820266ACN112820266A权利要求书1/2页1.一种基于跳跃编码器的并行端到端语音合成方法，其特征在于，包括以下步骤：步骤一：将文本与韵律标记一起输入到编码器模块；步骤二：将编码器的输出输入到跳跃编码器，跳过输出序列中韵律标记对应时间步的特征，保留文本内容对应的隐特征；步骤三：通过FastSpeech的时长模型对得到的文本隐特征进行扩充；步骤四：将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码，得到合成语音的频谱特征；步骤五：使用声码器将频谱特征映射为声音波形，得到合成的语音。2.根据权利要求1所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，包括以下流程：S1、获取训练样本；S2、进行模型训练阶段；S3、进行模型预测阶段；S4、根据实际应用场景与合成语音的效果，对各个模块的参数进行调整，使语音质量符合要求。3.根据权利要求2所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，在流程S1中，所述样本形式为文本、时长、频谱。4.根据权利要求3所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，文本中带有韵律标记，不同韵律标记的符号按实际情况确定，韵律标记为标注或使用韵律模型生成，时长部分由标注得到或者使用音字对齐模型获取。5.根据权利要求4所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，所述韵律标记包括韵律词、韵律短语以及语调短语。6.根据权利要求5所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，在流程S2中，还包括以下流程：S21、初始化模型各模块的参数，文本经过前端模块转化为带韵律标记的音素序列，计算得到编码后的隐特征，接着经过跳跃编码器，内部通过掩码操作过滤不参与解码的隐特征，得到实际参与解码的文本对应的隐特征；S22、使用训练数据中的时长特征对隐特征进行扩增，与目标频谱进行对齐；S23、生成频谱；S24、据实际需要设计误差函数与更新策略，训练至模型收敛。7.根据权利要求6所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，在流程S21中，文本经过前端模块转化为带韵律标记的音素序列，经过基于LSTM或者Transformer的编码器计算得到编码后的隐特征。8.根据权利要求7所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，在流程S23中，经过FastSpeech的解码器生成频谱。9.根据权利要求8所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，在流程S3中，主要流程内容为：扩增隐特征所需要的时长，由训练好的时长模型进行预测，其余流程与模型训练阶段相同，得到生成的频谱后使用预训练的声码器模型或相位恢复算法得到最终的合成语音。2CN112820266A权利要求书2/2页10.根据权利要求1至9中任一项所述的基于跳跃编码器的并行端到端语音合成方法，其特征在于，在步骤S1中，所述编码器模块为Tacotron2的编码器模块或FastSpeech的编码器模块。3CN112820266A说明书1/4页一种基于跳跃编码器的并行端到端语音合成方法技术领域[0001]本发明涉及语音合成技术领域，具体涉及一种基于跳跃编码器的并行端到端语音合成方法。背景技术[0002]Text‑to‑speech语音合成是将输

相关资料

一种基于跳跃编码器的并行端到端语音合成方法.pdf

本发明涉及语音合成技术领域，具体涉及一种基于跳跃编码器的并行端到端语音合成方法，包括以下步骤：步骤一：将文本与韵律标记一起输入到编码器模块；步骤二：将编码器的输出输入到跳跃编码器，跳过输出序列中韵律标记对应时间步的特征，保留文本内容对应的隐特征；步骤三：通过FastSpeech的时长模型对得到的文本隐特征进行扩充；步骤四：将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码，得到合成语音的频谱特征；步骤五：使用声码器将频谱特征映射为声音波形，得到合成的语音。本发明

2023-11-09

428KB

一种基于WaveRNN的端到端语音合成方法.pdf

本发明公开了一种基于WaveRNN的端到端语音合成方法，包括如下具体步骤：S1、前端处理,标注语言形成神经网络深度学习的音频特征向量，音频特征向量与文本字符对应；S2、文本字符输入；本发明提供一种基于WaveRNN的端到端语音合成方法，采用WaveRNN架构作为语音生成器，重构损失的相位信息，梅尔频谱特征逆变换为时域波形样本，进而生成语音提升合成语音的质量，合成的语音保真度较高，本发明中WaveRNN由称为双softmax层组成组成；WaveRNN其具有与最先进的WaveNet模型的质量匹配的双softm

2023-06-25

845KB

一种端到端语音合成方法和装置.pdf

本发明涉及一种端到端语音合成方法，所述方法具体包括：构建包括HAE、HCE、HAD的层级条件变分自编码器模型；以最大化证据下界为训练目标，训练所述模型；合成语音波形。还涉及了装置，包括HAE、HCE、HAD、训练模块；其中，HAE包括：帧级、音素级、子词级、词级、句子级五级语音编码器，第一仿射模块；HCE包括：语言学表征提取模块、子词级、词级、句子级三级文本编码器；HAD包括：句子级、词级、子词级、音素级、帧级五级解码器，第二仿射模块。本发明的方法和装置，提升了合成语音的整体质量、自然性，以及韵律表现力。

2023-06-01

1.8MB

一种基于对比学习的端到端音障语音识别方法.pdf

本发明公开了一种基于对比学习的端到端音障语音识别方法，该方法具备语音识别能力前需要使用大量正常发音数据预训练得到一个基本模型，再迁移到音障语音识别的任务中。在训练完成后，本方法就有了音障语音识别的能力。本发明首先对音障语音数据进行频谱图上的数据增强，再通过Transformer模型中的编码器提取隐层信息，然后该隐层信息经过投影模块被提取出低维的隐表示。最后本方法在隐表示所在的低维隐空间上进行对比损失的计算。在解码过程中，解码器直接使用隐层信息进行解码。本发明的创新点在于将对比学习与Transformer模

2023-11-07

949KB

基于端到端模型的混合语音识别系统及方法.pdf

本发明涉及一种基于端到端模型的混合语音识别系统及方法，包括特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块。本发明采用声学语言端到端建模技术，对海量语音数据进行建模，并将端到端模型的编码网络作为声学模型，嵌入到混合语音识别系统中，不仅进一步提高了语音识别准确率，而且解决了纯端到端语音识别系统在项目中难以做定制化的问题。另外，本发明在端到端模型的编码网络的基础上，继续做鉴别性声学模型训练(SMBR、MPE等)，可以进一步提高识别准确率。

2023-07-25

505KB