预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114974218A(43)申请公布日2022.08.30(21)申请号202210554179.X(22)申请日2022.05.20(71)申请人杭州小影创新科技股份有限公司地址310000浙江省杭州市西湖区文三路478号华星时代广场A座22层(72)发明人盛乐园(74)专利代理机构杭州裕阳联合专利代理有限公司33289专利代理师田金霞(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/16(2006.01)G10L15/22(2006.01)G10L19/008(2013.01)权利要求书2页说明书5页附图2页(54)发明名称语音转换模型训练方法及装置、语音转换方法及装置(57)摘要本发明涉及语音转换领域的语音转换模型训练方法及装置、语音转换方法及装置,模型训练方法,包括步骤:获取第一语音和与所述第一语音内容相同的文本数据,以所述文本数据计算第一内容特征;提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量;将所述第一隐变量和所述第一说话人特征输入流模型,以所述第一说话人特征为条件,计算输出第二说话特征,以第二说话特征和第一内容特征计算损失函数,提取达到预设优化参量后的第一隐变量,将优化后的第一隐变量输入解码器得到预测语音。本发明技术很好地保留了说话人的语气语调等信息。CN114974218ACN114974218A权利要求书1/2页1.一种语音转换模型训练方法,其特征在于,获取第一语音和与所述第一语音内容相同的文本数据,以所述文本数据计算第一内容特征;提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量;将所述第一隐变量和所述第一说话人特征输入流模型,以所述第一说话人特征为条件,计算输出第二说话特征,以第二说话特征和第一内容特征计算损失函数,提取达到预设优化参量后的第一隐变量,将优化后的第一隐变量输入解码器得到预测语音。2.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括:采用后验编码器,以所述第一频谱特征计算第一隐变量,所述后验编码器包括若干WaveNet残差模型。3.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述提取第一语音的频谱特征,输出第一频谱特征,通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括:采用说话人编码器,以所述第一频谱特征计算第一说话人特征,所述说话人编码器包括Conformer模型。4.根据权利要求1所述的语音转换模型训练方法,其特征在于,所述流模型包括若干WaveNet的残差块,用于构建内容特征与隐变量的映射关系,内容特征经过流模型转换成隐变量,所述隐变量经过流模型转换为内容特征。5.根据权利要求1所述的语音转换模型训练方法,其特征在于,以所述文本数据计算第一内容特征的方法包括:将文本数据通过字形得到与文本对应的音素,对文本的音素进行表征,由CBHG模块对表征的特征进行编码,得到第一内容特征。6.一种语音转换方法,其特征在于,包括根据权利要求1‑5所述的语音转换模型训练方法训练得到的流模型,还包括步骤:获取与源音频说话人信息无关的第一音频特征P1;获取需转化的目标说话人语音,提取目标说话人语音的频谱特征,输出第二频谱特征,通过所述第二频谱特征计算第二说话特征S2;将所述第二说话特征和所述第一音频特征输入流模型,得到第二隐变量Z2,将所述第二隐变量解码生成目标音频;获取与源音频说话人信息无关的第一音频特征的方法包括采用内容编码器进行编码转换。7.根据权利要求6所述的语音转换方法,其特征在于,所述说话人信息包括说话人音色。8.根据权利要求6所述的语音转换方法,其特征在于,获取与源音频说话人信息无关的第一音频特征的方法包括:将所述第一隐变量和所述第二说话人特征输入流模型,以所述第二说话人特征为条2CN114974218A权利要求书2/2页件,计算输出第二说话特征P1。9.一种语音转换模型训练装置,其特征在于,包括:主控器,获取第一语音,计算第一频谱特征,计算与第一语音相同的文本数据,并控制数据在内容编码器、后验编码器、流模型单元以及解码器之间的输入输出;内容编码器,获取与第一语音内容相同的文本数据,以所述文本数据计算第一内容特征;后验编码器,接收第一频谱特征,通过所述第一频谱特征计算第一隐变量;说话人编码器,接收第一频谱特征,通过所述第一频谱特征计算第一说话人特征;流模型单元,接收第一隐变量和所述第一说话人特征,以所述第一说话人特征为条件,计算输出第二说话特征,以第