预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116013336A(43)申请公布日2023.04.25(21)申请号202211599936.1(22)申请日2022.12.12(71)申请人网易(杭州)网络有限公司地址310056浙江省杭州市滨江区长河街道网商路599号4幢7层(72)发明人朱鹏程宁子谦毕梦霄薛鹤洋郭帅张晴胡志鹏吕唐杰(74)专利代理机构北京风雅颂专利代理有限公司11403专利代理师李翔(51)Int.Cl.G10L21/003(2013.01)G10L21/007(2013.01)G10L25/18(2013.01)权利要求书2页说明书10页附图2页(54)发明名称音色转换方法、装置、电子设备及存储介质(57)摘要本申请提供一种音色转换方法、装置、电子设备及存储介质,所述方法包括:获取第一音频数据,并提取所述第一音频数据的语音频域特征;根据所述语音频域特征得到所述第一音频数据的语义特征向量;将所述语义特征向量以及预先确定的第二音色数据输入到预先构建的音色转换模型中,得到具有目标音色的语音特征向量;根据所述语音特征向量,生成第二语音数据;其中,所述第二语音数据与所述第一语音数据的音色不同。CN116013336ACN116013336A权利要求书1/2页1.一种音色转换方法,其特征在于,所述方法包括:获取第一音频数据,并提取所述第一音频数据的语音频域特征;根据所述语音频域特征得到所述第一音频数据的语义特征向量;将所述语义特征向量以及预先确定的第二音色数据输入到预先构建的音色转换模型中,得到具有目标音色的语音特征向量;根据所述语音特征向量,生成第二语音数据;其中,所述第二语音数据与所述第一语音数据的音色不同。2.根据权利要求1所述的方法,其特征在于,所述获取第一音频数据,包括:获取待处理的第一语音片段,并确定所述第一语音片段的采样频率;根据所述采样频率对所述第一语音片段进行采样,得到所述第一音频数据。3.根据权利要求1所述的方法,其特征在于,所述提取所述第一音频数据的语音频域特征,包括:将所述第一音频数据输入到预先构建的特征提取模型中,得到第一梅尔频谱特征;根据所述第一梅尔频谱特征,得到所述语音频域特征。4.根据权利要求1所述的方法,其特征在于,所述根据所述语音频域特征得到所述第一音频数据的语义特征向量,包括:通过预先训练的语义提取模型对所述语音频域特征进行语义特征提取,得到所述语义特征向量;其中,所述语义特征向量表征所述第一音频数据的语义内容。5.根据权利要求1所述的方法,其特征在于,所述将所述语义特征向量以及预先确定的第二音色数据输入到预先构建的音色转换模型中,得到具有目标音色的语音特征向量,包括:通过所述音色转换模型对所述语义特征向量进行上采样,得到第一语音采样向量;根据所述第一语音采样向量和所述第二音色数据,得到所述具有目标音色的语音特征向量;其中,所述语音特征向量表征所述第一音频数据的语音内容。6.根据权利要求1所述的方法,其特征在于,通过以下方式构建所述预先训练的语义提取模型:将一段实时语音数据进行切分,得到若干段训练音频数据;其中,所述若干段训练音频数据的长度不同;为所述若干段训练音频数据添加边缘语音帧,以将所述若干段训练音频数据的长度统一为预设长度;按照所述若干段训练音频数据的切分时序,将所述若干段训练音频数据输入到语义提取模型中,以进行模型训练,得到所述预先训练的语义提取模型;其中,所述预先训练的语义提取模型的输出是所述实时音频数据的语义特征向量。7.根据权利要求6所述的方法,其特征在于,所述按照所述若干段训练音频数据的切分时序,将所述若干段训练音频数据输入到语义提取模型中,以进行模型训练,包括:对于每一段所述训练音频数据,获取该段训练音频数据的上一个时序的历史训练音频数据,确定所述历史音频数据尾部的边缘语音帧的尾部长度;获取与所述尾部长度相同的该段训练音频数据的头部的边缘语音帧,并将所述头部的2CN116013336A权利要求书2/2页边缘语音帧的音频内容添加到所述历史音频数据尾部的边缘语音帧的内容中。8.根据权利要求1所述的方法,其特征在于,所述根据所述语音特征向量,生成第二语音数据,包括:将所述语音特征向量输入到预先构建的声学生成模型中,对所述语音特征向量进行上采样,得到第二语音采样向量;根据所述第二语音采样向量生成所述第二语音数据。9.根据权利要求4所述的方法,其特征在于,所述语义提取模型,是基于包含多种音色信息的语音数据集以及至少一个目标音色信息的音素序列进行训练所得的。10.一种音色转换装置,其特征在于,所述装置包括:音频获取模块,被配置为获取第一音频数据,并提取所述第一音频数据的语音频域特征;语义特征提取模块,被配置为根据所述语音频域特征得到所述第一音频数据的