一种端到端语音合成方法和装置-豆柴文库

一种端到端语音合成方法和装置.pdf

2023-06-01

10金币

1.8MB

13页

雨巷****凝海

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共13页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115985289A(43)申请公布日2023.04.18(21)申请号202211582420.6(22)申请日2022.12.09(71)申请人中国科学院声学研究所地址100190北京市海淀区北四环西路21号(72)发明人王丽尚增强张鹏远(74)专利代理机构北京亿腾知识产权代理事务所(普通合伙)11309专利代理师陈霁(51)Int.Cl.G10L13/08(2013.01)G10L25/30(2013.01)G10L19/16(2013.01)权利要求书2页说明书7页附图3页(54)发明名称一种端到端语音合成方法和装置(57)摘要本发明涉及一种端到端语音合成方法，所述方法具体包括：构建包括HAE、HCE、HAD的层级条件变分自编码器模型；以最大化证据下界为训练目标，训练所述模型；合成语音波形。还涉及了装置，包括HAE、HCE、HAD、训练模块；其中，HAE包括：帧级、音素级、子词级、词级、句子级五级语音编码器，第一仿射模块；HCE包括：语言学表征提取模块、子词级、词级、句子级三级文本编码器；HAD包括：句子级、词级、子词级、音素级、帧级五级解码器，第二仿射模块。本发明的方法和装置，提升了合成语音的整体质量、自然性，以及韵律表现力。CN115985289ACN115985289A权利要求书1/2页1.一种端到端语音合成方法，其特征在于，包括：构建包括HAE、HCE、HAD的层级条件变分自编码器模型；以最大化证据下界为训练目标，训练所述模型，包括：HCE从文本样本中提取音素级语言学表征和字符级语言学表征，并依据提取的语言学表征逐级下采样获得子词级、词级、句子级语言学表征，并将音素级、子词级、词级语言学表征输入给HAE、HAD作为获取各自下一级表征的监督信息；HAE从文本样本对应的线性谱中提取帧级表征，然后自帧级表征起对各级表征逐级下采样获得音素级、子词级、词级和句子级表征，利用仿射变换从各级表征获得相应的各级隐变量；其中，下采样获得子词级表征时采用了音素时长；HAD将句子级语言学表征和HAE输入的句子级隐变量的特征组合上采样获得词级表征，然后自词级起逐级对各级表征和HAE输入的与该级表征相应级隐变量的特征组合上采样获得子词、音素和帧级表征，利用仿射变换从句子级语言学表征和上采样获得的各级表征获得相应的各级隐变量；依据帧级表征的和HAE输入的帧级隐变量的特征组合重建语音波形；其中，上采样获得音素级表征时重建音素时长；合成语音波形，包括：HCE从待合成文本中提取音素级语言学表征和字符级语言学表征，并依据提取的语言学表征逐级下采样获得子词级、词级和句子级语言学表征，并将音素级、子词级、词级语言学表征输入给HAD作为获取各自下一级表征的监督信息；HAD利用仿射变换从句子级语言学表征获得句子级隐变量；将句子级隐变量和句子级语言学表征的特征组合上采样获得词级表征，然后自词级起逐级对各级表征和与该级表征相应级隐变量的特征组合上采样获得子词、音素和帧级表征；利用仿射变换从各级表征获得相应的各级隐变量；依据帧级隐变量和帧级表征的特征组合合成语音波形；其中，上采样获得音素级表征时重建音素时长。2.根据权利要求1所述的方法，其特征在于，在训练期间逐渐增大各级KL的权重，且保持句子级KL的权重<词级KL的权重<子词级KL的权重<音素级KL的权重<帧级KL的权重，直至帧级KL的权重增大至1。3.一种端到端语音合成装置，其特征在于，包括HAE、HCE、HAD、训练模块；其中，HAE包括：帧级、音素级、子词级、词级、句子级五级语音编码器，第一仿射模块；HCE包括：语言学表征提取模块、子词级、词级、句子级三级文本编码器；HAD包括：句子级、词级、子词级、音素级、帧级五级解码器，第二仿射模块；训练模块，用于将训练目标设定为最大化证据下界，在达到训练目标时，终止训练；语言学表征提取模块，用于从文本样本/待合成文本中提取音素级语言学表征和字符级语言学表征；并在模型训练时用于将音素级语言学表征输入给HAE、HAD作为获取子词表征的监督信息，在训练完成进行语音合成时用于将音素级语言学表征输入给HAD作为获取子词表征的监督信息；子词级、词级、句子级文本编码器，用于依据提取的语言学表征逐级下采样获得子词级、词级、句子级语言学表征；并在模型训练时用于将子词级、词级级语言学表征输入给HAE、HAD作为获取各自下一级表征的监督信息，在训练完成进行语音合成时用于将子词级、词级级语言学表征输入给HAD作为获取各自下一级表征的监督信息；2CN115985289A权利要求书2/2页帧级语音编码器，用于从文本样本对应的线性谱中提取帧级表征；音素级、子词级、词级、句子级语音编码器，用于自帧级表征起对各级表征逐级下采样获得音素

相关资料

一种端到端语音合成方法和装置.pdf

本发明涉及一种端到端语音合成方法，所述方法具体包括：构建包括HAE、HCE、HAD的层级条件变分自编码器模型；以最大化证据下界为训练目标，训练所述模型；合成语音波形。还涉及了装置，包括HAE、HCE、HAD、训练模块；其中，HAE包括：帧级、音素级、子词级、词级、句子级五级语音编码器，第一仿射模块；HCE包括：语言学表征提取模块、子词级、词级、句子级三级文本编码器；HAD包括：句子级、词级、子词级、音素级、帧级五级解码器，第二仿射模块。本发明的方法和装置，提升了合成语音的整体质量、自然性，以及韵律表现力。

2023-06-01

1.8MB

一种基于WaveRNN的端到端语音合成方法.pdf

本发明公开了一种基于WaveRNN的端到端语音合成方法，包括如下具体步骤：S1、前端处理,标注语言形成神经网络深度学习的音频特征向量，音频特征向量与文本字符对应；S2、文本字符输入；本发明提供一种基于WaveRNN的端到端语音合成方法，采用WaveRNN架构作为语音生成器，重构损失的相位信息，梅尔频谱特征逆变换为时域波形样本，进而生成语音提升合成语音的质量，合成的语音保真度较高，本发明中WaveRNN由称为双softmax层组成组成；WaveRNN其具有与最先进的WaveNet模型的质量匹配的双softm

2023-06-25

845KB

端到端语音识别模型处理方法、语音识别方法及相关装置.pdf

本发明提供的端到端语音识别模型处理方法、语音识别方法及相关装置，方法包括：获取预设词表和文本语料集；其中，所述预设词表用于维护任意一种直播领域中的热词、所述热词对应的发音路径和建模单元；根据所述文本语料集，训练初始的语言模型的模型参数，得到所述直播领域对应的目标语言模型；根据所述热词的发音路径和建模单元，更新所述目标语言模型，并确定更新后的目标语言模型中所述热词的权重；根据更新后的所述目标语言模型，生成端到端语音识别模型。由于在生成的目标语音识别模型中包含了直播领域中的热词的权重，因而使得模型能够实在语音

2023-07-24

832KB

端到端语音到语音翻译的优化方法综述.docx

端到端语音到语音翻译的优化方法综述目录一、内容综述................................................21.研究背景与意义........................................32.国内外研究现状........................................43.论文研究目的及内容....................................5二、端到端语音翻译系统概述....................

2024-10-12

33KB

基于多信息融合的端到端语音合成方法研究.docx

基于多信息融合的端到端语音合成方法研究基于多信息融合的端到端语音合成方法研究摘要：语音合成是将文本转化为自然流畅的语音信号的过程。传统的语音合成算法采用基于拼接单元的方法，需要大量的语音数据和人工标注。而端到端的语音合成方法直接从文本到语音信号的映射，能够避免繁琐的特征提取和拼接操作，有效减少合成过程的复杂度。然而，当前的端到端语音合成方法在音质和语音自然度上仍存在一定的问题。本文提出一种基于多信息融合的端到端语音合成方法，通过融合文本信息、音素信息和音频特征信息，改进语音合成系统的性能。实验证明，该方法

2024-10-20

11KB