一种基于WaveRNN的端到端语音合成方法-豆柴文库

一种基于WaveRNN的端到端语音合成方法.pdf

2023-06-25

10金币

845KB

12页

玉环****找我

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共12页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110473515A(43)申请公布日2019.11.19(21)申请号201910805134.3G06N3/08(2006.01)(22)申请日2019.08.29G06N3/04(2006.01)G06K9/62(2006.01)(71)申请人郝洁地址711700陕西省渭南市富平县南社乡南社街道(72)发明人郝洁魏江侯永(74)专利代理机构长沙大珂知识产权代理事务所(普通合伙)43236代理人肖勇翔(51)Int.Cl.G10L13/02(2013.01)G10L13/08(2013.01)G10L13/10(2013.01)G10L25/24(2013.01)G10L25/30(2013.01)权利要求书2页说明书6页附图3页(54)发明名称一种基于WaveRNN的端到端语音合成方法(57)摘要本发明公开了一种基于WaveRNN的端到端语音合成方法，包括如下具体步骤：S1、前端处理,标注语言形成神经网络深度学习的音频特征向量，音频特征向量与文本字符对应；S2、文本字符输入；本发明提供一种基于WaveRNN的端到端语音合成方法，采用WaveRNN架构作为语音生成器，重构损失的相位信息，梅尔频谱特征逆变换为时域波形样本，进而生成语音提升合成语音的质量，合成的语音保真度较高，本发明中WaveRNN由称为双softmax层组成组成；WaveRNN其具有与最先进的WaveNet模型的质量匹配的双softmax层；网络的紧凑形式可以在GPU上生成比实时快4倍的24kHz16位音频；本发明创造性地把2*16的分类器，拆成了两个2*8的分类器，网络的架构和需求确实变小了，提高语音生成效。CN110473515ACN110473515A权利要求书1/2页1.一种基于WaveRNN的端到端语音合成方法，其特征在于：包括如下具体步骤：S1、前端处理,标注语言形成神经网络深度学习的音频特征向量，音频特征向量与文本字符对应；S2、文本字符输入；S3、文本字符预处理，双向提取音频特征序列，并形成梅尔频率声谱图；S4、WaveRNN语音生成，重构损失的相位信息，梅尔频谱特征逆变换为时域波形样本，进而生成语音。2.如权利要求1所述的一种基于WaveRNN的端到端语音合成方法，其特征在于：所述S1中，预先构建语料库，语料库中的所有音频特征都被标注与文本字符对应。3.如权利要求1所述的一种基于WaveRNN的端到端语音合成方法，其特征在于：S3包括如下具体步骤：S301、将文本字符转换为one-hot向量，并被嵌入一个连续向量中，S302、通过带dropout瓶颈层的预处理pre-net网络对每个字符向量施加一组非线性变换后的序列输出输入到CBHG模块；S303、CBHG模块将pre-net的输出变换成编码器的最终表达。4.如权利要求3所述的一种基于WaveRNN的端到端语音合成方法，其特征在于：所述S303中CBHG模块包含一维卷积滤波器组，其变换包括如下具体步骤：S3031、一维卷积滤波器组对局部上下文信息进行建模；S3032、然后接一个多层高速公路网络，用来提取高层特征；S3033、最后通过一个双向门控循环单元循环神经网络，用来前后双向提取特征序列。5.如权利要求3所述的一种基于WaveRNN的端到端语音合成方法，其特征在于：所述S303中CBHG模块使用非因果卷积、批标准化、残差连接以及步长为1的最大池化处理。6.如权利要求1-5任一所述的一种基于WaveRNN的端到端语音合成方法，其特征在于：所述S4中WaveRNN由称为双softmax层组成；所述紧凑形式网络结构能够在GPU上生成比实时快4倍的24kHz16位音频；语音生成速度：其中，T(u)就是生成某句子u发音需要的时间；一共有|u|个sample，这里的sample和digitalaudio里的sample是一个意思；N,代表神经网络的层数，numberoflayers；c(op)代表每一层的计算时间，而d(op)代表硬件执行程序的overhead时间，包含了调用程序，提取对应参数的时间。7.如权利要求6所述的一种基于WaveRNN的端到端语音合成方法，其特征在于：所述WaveRNN含有两层softmaxlayer，用于生成coarse8bits和fine8bits，R层为GRU层，首先配合生成coarse8bits，coarse8bits生成后当做输入去生成fine8bits。8.如权利要求6所述的一种基于WaveRNN的端到端语音合成方法，其特征在于：其中GRUvariantcell的计算包含了masking其具体公式如下：xt＝[ct-1，ft-1，ct]2CN110473515A权利要求书2/2页yc，

相关资料

一种基于WaveRNN的端到端语音合成方法.pdf

本发明公开了一种基于WaveRNN的端到端语音合成方法，包括如下具体步骤：S1、前端处理,标注语言形成神经网络深度学习的音频特征向量，音频特征向量与文本字符对应；S2、文本字符输入；本发明提供一种基于WaveRNN的端到端语音合成方法，采用WaveRNN架构作为语音生成器，重构损失的相位信息，梅尔频谱特征逆变换为时域波形样本，进而生成语音提升合成语音的质量，合成的语音保真度较高，本发明中WaveRNN由称为双softmax层组成组成；WaveRNN其具有与最先进的WaveNet模型的质量匹配的双softm

2023-06-25

845KB

一种端到端语音合成方法和装置.pdf

本发明涉及一种端到端语音合成方法，所述方法具体包括：构建包括HAE、HCE、HAD的层级条件变分自编码器模型；以最大化证据下界为训练目标，训练所述模型；合成语音波形。还涉及了装置，包括HAE、HCE、HAD、训练模块；其中，HAE包括：帧级、音素级、子词级、词级、句子级五级语音编码器，第一仿射模块；HCE包括：语言学表征提取模块、子词级、词级、句子级三级文本编码器；HAD包括：句子级、词级、子词级、音素级、帧级五级解码器，第二仿射模块。本发明的方法和装置，提升了合成语音的整体质量、自然性，以及韵律表现力。

2023-06-01

1.8MB

一种基于跳跃编码器的并行端到端语音合成方法.pdf

本发明涉及语音合成技术领域，具体涉及一种基于跳跃编码器的并行端到端语音合成方法，包括以下步骤：步骤一：将文本与韵律标记一起输入到编码器模块；步骤二：将编码器的输出输入到跳跃编码器，跳过输出序列中韵律标记对应时间步的特征，保留文本内容对应的隐特征；步骤三：通过FastSpeech的时长模型对得到的文本隐特征进行扩充；步骤四：将跳跃编码器的输出输入到FastSpeech基于Transformer的解码器实现并行化的解码，得到合成语音的频谱特征；步骤五：使用声码器将频谱特征映射为声音波形，得到合成的语音。本发明

2023-11-09

428KB

一种基于对比学习的端到端音障语音识别方法.pdf

本发明公开了一种基于对比学习的端到端音障语音识别方法，该方法具备语音识别能力前需要使用大量正常发音数据预训练得到一个基本模型，再迁移到音障语音识别的任务中。在训练完成后，本方法就有了音障语音识别的能力。本发明首先对音障语音数据进行频谱图上的数据增强，再通过Transformer模型中的编码器提取隐层信息，然后该隐层信息经过投影模块被提取出低维的隐表示。最后本方法在隐表示所在的低维隐空间上进行对比损失的计算。在解码过程中，解码器直接使用隐层信息进行解码。本发明的创新点在于将对比学习与Transformer模

2023-11-07

949KB

基于端到端模型的混合语音识别系统及方法.pdf

本发明涉及一种基于端到端模型的混合语音识别系统及方法，包括特征提取模块、语言模型、基于端到端模型的声学模型、解码器、词图重估模块以及输出模块。本发明采用声学语言端到端建模技术，对海量语音数据进行建模，并将端到端模型的编码网络作为声学模型，嵌入到混合语音识别系统中，不仅进一步提高了语音识别准确率，而且解决了纯端到端语音识别系统在项目中难以做定制化的问题。另外，本发明在端到端模型的编码网络的基础上，继续做鉴别性声学模型训练(SMBR、MPE等)，可以进一步提高识别准确率。

2023-07-25

505KB