预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114141269A(43)申请公布日2022.03.04(21)申请号202010808769.1(22)申请日2020.08.12(71)申请人中国电信股份有限公司地址100033北京市西城区金融大街31号(72)发明人刘晴赵德欣(74)专利代理机构中国贸促会专利商标事务所有限公司11038代理人张荣海(51)Int.Cl.G10L25/30(2013.01)G10L15/06(2013.01)G10L15/16(2006.01)G10L21/013(2013.01)G10L19/00(2013.01)权利要求书2页说明书4页附图1页(54)发明名称语音转换模型生成方法和装置(57)摘要本发明涉及语音转换模型生成方法和装置。提供了一种语音转换模型生成方法,该方法用于训练基于神经网络的语音转换模型,包括以下步骤:a.使用所述语音转换模型对原说话人语音进行转换;b.分别提取转换后的语音和目标说话人语音的音频特征;c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中,分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量;d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失;e.将所述损失反向传播到所述语音转换模型中,从而更新所述语音转换模型的参数;f.使用更新后的所述语音转换模型,重复上述步骤a至e,直到所述损失小于预定阈值或者迭代次数大于预定次数。CN114141269ACN114141269A权利要求书1/2页1.一种语音转换模型生成方法,该方法用于训练基于神经网络的语音转换模型,包括以下步骤:a.使用所述语音转换模型对原说话人语音进行转换;b.分别提取转换后的语音和目标说话人语音的音频特征;c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中,分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量;d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失;e.将所述损失反向传播到所述语音转换模型中,从而更新所述语音转换模型的参数;f.使用更新后的所述语音转换模型,重复上述步骤a至e,直到所述损失小于预定阈值或者迭代次数大于预定次数。2.根据权利要求1所述的方法,其中步骤a包括:使用所述语音转换模型将原说话人语音转换成在时间上连续的多个帧的语音数据。3.根据权利要求1所述的方法,其中,所述音频特征包括短时能量、过零率和梅尔倒谱系数。4.根据权利要求1所述的方法,其中,所述语音转换模型是基于时延神经网络结构的深度神经网络。5.根据权利要求1所述的方法,其中,所述原说话人语音和目标说话人语音的说话内容相同,并且均具有预定时间长度。6.根据权利要求1所述的方法,其中,原说话人语音的转换后的语音的时间延迟不超过200ms。7.一种实时语音转换方法,包括:接收原说话人语音;和使用根据权利要求1-6中的任一项所述的方法生成的语音转换模型对原说话人语音进行转换。8.一种语音转换模型生成装置,该装置用于训练基于神经网络的语音转换模型,包括:一个或多个处理器;和存储器,其上存储有可执行指令,所述可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:a.使用所述语音转换模型对原说话人语音进行转换;b.分别提取转换后的语音和目标说话人语音的音频特征;c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中,分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量;d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失;e.将所述损失反向传播到所述语音转换模型中,从而更新所述语音转换模型的参数;f.使用更新后的所述语音转换模型,重复上述处理a至e,直到所述损失小于预定阈值或者迭代次数大于预定次数。9.根据权利要求8所述的装置,其中处理a包括:使用所述语音转换模型将原说话人语音转换成在时间上连续的语音数据。10.根据权利要求8所述的装置,其中,2CN114141269A权利要求书2/2页所述音频特征包括短时能量、过零率和梅尔倒谱系数。11.根据权利要求8所述的装置,其中,所述语音转换模型是基于时延神经网络结构的深度神经网络。12.根据权利要求8所述的装置,其中,所述原说话人语音和目标说话人语音的说话内容相同,并且均具有预定时间长度。13.根据权利要求8所述的装置,其中,原说话人语音的转换后的语音的时间延迟不超过200ms。14.一种实时语音转换装置,包括:一个或多个处理器;和存储器,其上存储有可执行指令,所述可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器:接收原说话人语音;和使用通过根据权利要求8-13中的任一项所述的装置生成的语音转换模型对原说话