预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共34页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114999443A(43)申请公布日2022.09.02(21)申请号202210593870.9(22)申请日2022.05.27(71)申请人网易(杭州)网络有限公司地址310052浙江省杭州市滨江区网商路599号网易大厦(72)发明人张海桐林悦(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师王辉(51)Int.Cl.G10L13/02(2013.01)G10L13/033(2013.01)G10L13/08(2013.01)权利要求书3页说明书23页附图7页(54)发明名称语音生成方法及装置、存储介质、电子设备(57)摘要本公开属于语音处理技术领域,涉及一种语音生成方法及装置、存储介质、电子设备。该方法包括:获取待处理语音的语音特征向量,并将语音特征向量输入至语音生成模型得到语言单元向量;获取文本特征向量,并根据文本特征向量和语言单元向量确定待处理特征向量;将待处理特征向量输入至序列到序列模型中得到声学特征向量,并将声学特征向量输入至声码器得到与待处理语音或文本特征向量对应的目标语音。本公开接收语音和文本作为输入,将语音合成任务和语音音色转换任务融合起来,提升了语音合成任务和语音音色转换任务的性能,提供了多种音色克隆的策略,提高了少数据下音色克隆的效果,降低了模型的训练难度,支持了多种应用场景下的音色克隆。CN114999443ACN114999443A权利要求书1/3页1.一种语音生成方法,其特征在于,所述方法包括:获取待处理语音的语音特征向量,并将所述语音特征向量输入至语音生成模型得到语言单元向量;获取文本特征向量,并根据所述文本特征向量和所述语言单元向量确定待处理特征向量;将所述待处理特征向量输入至序列到序列模型中得到声学特征向量,并将所述声学特征向量输入至声码器得到与所述待处理语音或所述文本特征向量对应的目标语音。2.根据权利要求1所述的语音生成方法,其特征在于,所述将所述语音特征向量输入至语音生成模型得到语言单元向量,包括:将所述语音特征向量输入至语音生成模型中,以使所述语音生成模型输出语音编码向量和自还原语音;对所述待处理语音和所述自还原语音进行损失计算得到第一损失值,并根据所述第一损失值确定所述语音编码向量为语言单元向量。3.根据权利要求2所述的语音生成方法,其特征在于,所述将所述语音特征向量输入至语音生成模型中,以使所述语音生成模型输出语音编码向量和自还原语音,包括:将所述语音特征向量输入至语音生成模型中,利用所述语音生成模型的编码器模块对所述语音特征向量进行非线性变换得到语音编码向量;利用所述语音生成模型的向量量化模块将所述语音编码向量进行量化得到语音量化序列,并获取与所述待处理语音对应的说话人向量;利用所述语音生成模型的解码器模块对所述语音量化序列和所述说话人向量进行非线性变换得到自还原语音。4.根据权利要求3所述的语音生成方法,其特征在于,所述获取与所述待处理语音对应的说话人向量,包括:获取与所述待处理语音对应的说话人标识,并确定所述说话人标识和说话人向量之间的对应关系;其中,所述对应关系是根据所述语音生成模型确定的;根据所述对应关系查询与所述说话人标识对应的所述说话人向量。5.根据权利要求3所述的语音生成方法,其特征在于,所述利用所述语音生成模型的向量量化模块将所述语音编码向量进行量化得到语音量化序列,包括:基于所述语音生成模型的向量量化模块中的编码表,通过最近邻搜索算法对所述语音编码向量进行量化得到语音量化序列。6.根据权利要求5所述的语音生成方法,其特征在于,所述通过最近邻搜索算法对所述语音编码向量进行量化得到语音量化序列,包括:更新所述编码表得到更新后的编码表;基于所述更新后的编码表,通过最近邻搜索算法对所述语音编码向量进行量化得到语音量化序列。7.根据权利要求6所述的语音生成方法,其特征在于,所述更新所述编码表得到更新后的编码表,包括:获取每一帧编码表的编码表标识,并对所述编码表标识进行比较得到比较结果;根据所述比较结果将所述编码表进行合并处理得到更新后的编码表。2CN114999443A权利要求书2/3页8.根据权利要求3所述的语音生成方法,其特征在于,所述将所述待处理特征向量输入至序列到序列模型中得到声学特征向量,包括:获取所述待处理特征向量的待处理声学向量,并将所述待处理特征向量和所述待处理声学向量输入至序列到序列模型中,以使所述序列到序列模型输出已处理声学向量;对所述待处理声学向量和所述已处理声学向量进行损失计算得到第二损失值,并根据所述第二损失值确定所述已处理声学向量为声学特征向量。9.根据权利要求8所述的语音生成方法,其特征在于,所述将所述待处理特征向量和所述待处理声学向量输入至序列到序列模型