预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110473515A(43)申请公布日2019.11.19(21)申请号201910805134.3G06N3/08(2006.01)(22)申请日2019.08.29G06N3/04(2006.01)G06K9/62(2006.01)(71)申请人郝洁地址711700陕西省渭南市富平县南社乡南社街道(72)发明人郝洁魏江侯永(74)专利代理机构长沙大珂知识产权代理事务所(普通合伙)43236代理人肖勇翔(51)Int.Cl.G10L13/02(2013.01)G10L13/08(2013.01)G10L13/10(2013.01)G10L25/24(2013.01)G10L25/30(2013.01)权利要求书2页说明书6页附图3页(54)发明名称一种基于WaveRNN的端到端语音合成方法(57)摘要本发明公开了一种基于WaveRNN的端到端语音合成方法,包括如下具体步骤:S1、前端处理,标注语言形成神经网络深度学习的音频特征向量,音频特征向量与文本字符对应;S2、文本字符输入;本发明提供一种基于WaveRNN的端到端语音合成方法,采用WaveRNN架构作为语音生成器,重构损失的相位信息,梅尔频谱特征逆变换为时域波形样本,进而生成语音提升合成语音的质量,合成的语音保真度较高,本发明中WaveRNN由称为双softmax层组成组成;WaveRNN其具有与最先进的WaveNet模型的质量匹配的双softmax层;网络的紧凑形式可以在GPU上生成比实时快4倍的24kHz16位音频;本发明创造性地把2*16的分类器,拆成了两个2*8的分类器,网络的架构和需求确实变小了,提高语音生成效。CN110473515ACN110473515A权利要求书1/2页1.一种基于WaveRNN的端到端语音合成方法,其特征在于:包括如下具体步骤:S1、前端处理,标注语言形成神经网络深度学习的音频特征向量,音频特征向量与文本字符对应;S2、文本字符输入;S3、文本字符预处理,双向提取音频特征序列,并形成梅尔频率声谱图;S4、WaveRNN语音生成,重构损失的相位信息,梅尔频谱特征逆变换为时域波形样本,进而生成语音。2.如权利要求1所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述S1中,预先构建语料库,语料库中的所有音频特征都被标注与文本字符对应。3.如权利要求1所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:S3包括如下具体步骤:S301、将文本字符转换为one-hot向量,并被嵌入一个连续向量中,S302、通过带dropout瓶颈层的预处理pre-net网络对每个字符向量施加一组非线性变换后的序列输出输入到CBHG模块;S303、CBHG模块将pre-net的输出变换成编码器的最终表达。4.如权利要求3所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述S303中CBHG模块包含一维卷积滤波器组,其变换包括如下具体步骤:S3031、一维卷积滤波器组对局部上下文信息进行建模;S3032、然后接一个多层高速公路网络,用来提取高层特征;S3033、最后通过一个双向门控循环单元循环神经网络,用来前后双向提取特征序列。5.如权利要求3所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述S303中CBHG模块使用非因果卷积、批标准化、残差连接以及步长为1的最大池化处理。6.如权利要求1-5任一所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述S4中WaveRNN由称为双softmax层组成;所述紧凑形式网络结构能够在GPU上生成比实时快4倍的24kHz16位音频;语音生成速度:其中,T(u)就是生成某句子u发音需要的时间;一共有|u|个sample,这里的sample和digitalaudio里的sample是一个意思;N,代表神经网络的层数,numberoflayers;c(op)代表每一层的计算时间,而d(op)代表硬件执行程序的overhead时间,包含了调用程序,提取对应参数的时间。7.如权利要求6所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:所述WaveRNN含有两层softmaxlayer,用于生成coarse8bits和fine8bits,R层为GRU层,首先配合生成coarse8bits,coarse8bits生成后当做输入去生成fine8bits。8.如权利要求6所述的一种基于WaveRNN的端到端语音合成方法,其特征在于:其中GRUvariantcell的计算包含了masking其具体公式如下:xt=[ct-1,ft-1,ct]2CN110473515A权利要求书2/2页yc,