语音转换模型生成方法和装置-豆柴文库

语音转换模型生成方法和装置.pdf

2023-07-24

10金币

451KB

8页

雨巷****碧易

实名认证

内容提供者

1/8

2/8

3/8

4/8

5/8

6/8

7/8

8/8

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114141269A(43)申请公布日2022.03.04(21)申请号202010808769.1(22)申请日2020.08.12(71)申请人中国电信股份有限公司地址100033北京市西城区金融大街31号(72)发明人刘晴赵德欣(74)专利代理机构中国贸促会专利商标事务所有限公司11038代理人张荣海(51)Int.Cl.G10L25/30(2013.01)G10L15/06(2013.01)G10L15/16(2006.01)G10L21/013(2013.01)G10L19/00(2013.01)权利要求书2页说明书4页附图1页(54)发明名称语音转换模型生成方法和装置(57)摘要本发明涉及语音转换模型生成方法和装置。提供了一种语音转换模型生成方法，该方法用于训练基于神经网络的语音转换模型，包括以下步骤：a.使用所述语音转换模型对原说话人语音进行转换；b.分别提取转换后的语音和目标说话人语音的音频特征；c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中，分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量；d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失；e.将所述损失反向传播到所述语音转换模型中，从而更新所述语音转换模型的参数；f.使用更新后的所述语音转换模型，重复上述步骤a至e，直到所述损失小于预定阈值或者迭代次数大于预定次数。CN114141269ACN114141269A权利要求书1/2页1.一种语音转换模型生成方法，该方法用于训练基于神经网络的语音转换模型，包括以下步骤：a.使用所述语音转换模型对原说话人语音进行转换；b.分别提取转换后的语音和目标说话人语音的音频特征；c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中，分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量；d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失；e.将所述损失反向传播到所述语音转换模型中，从而更新所述语音转换模型的参数；f.使用更新后的所述语音转换模型，重复上述步骤a至e，直到所述损失小于预定阈值或者迭代次数大于预定次数。2.根据权利要求1所述的方法，其中步骤a包括：使用所述语音转换模型将原说话人语音转换成在时间上连续的多个帧的语音数据。3.根据权利要求1所述的方法，其中，所述音频特征包括短时能量、过零率和梅尔倒谱系数。4.根据权利要求1所述的方法，其中，所述语音转换模型是基于时延神经网络结构的深度神经网络。5.根据权利要求1所述的方法，其中，所述原说话人语音和目标说话人语音的说话内容相同，并且均具有预定时间长度。6.根据权利要求1所述的方法，其中，原说话人语音的转换后的语音的时间延迟不超过200ms。7.一种实时语音转换方法，包括：接收原说话人语音；和使用根据权利要求1-6中的任一项所述的方法生成的语音转换模型对原说话人语音进行转换。8.一种语音转换模型生成装置，该装置用于训练基于神经网络的语音转换模型，包括：一个或多个处理器；和存储器，其上存储有可执行指令，所述可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器：a.使用所述语音转换模型对原说话人语音进行转换；b.分别提取转换后的语音和目标说话人语音的音频特征；c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中，分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量；d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失；e.将所述损失反向传播到所述语音转换模型中，从而更新所述语音转换模型的参数；f.使用更新后的所述语音转换模型，重复上述处理a至e，直到所述损失小于预定阈值或者迭代次数大于预定次数。9.根据权利要求8所述的装置，其中处理a包括：使用所述语音转换模型将原说话人语音转换成在时间上连续的语音数据。10.根据权利要求8所述的装置，其中，2CN114141269A权利要求书2/2页所述音频特征包括短时能量、过零率和梅尔倒谱系数。11.根据权利要求8所述的装置，其中，所述语音转换模型是基于时延神经网络结构的深度神经网络。12.根据权利要求8所述的装置，其中，所述原说话人语音和目标说话人语音的说话内容相同，并且均具有预定时间长度。13.根据权利要求8所述的装置，其中，原说话人语音的转换后的语音的时间延迟不超过200ms。14.一种实时语音转换装置，包括：一个或多个处理器；和存储器，其上存储有可执行指令，所述可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器：接收原说话人语音；和使用通过根据权利要求8-13中的任一项所述的装置生成的语音转换模型对原说话

相关资料

语音转换模型生成方法和装置.pdf

本发明涉及语音转换模型生成方法和装置。提供了一种语音转换模型生成方法，该方法用于训练基于神经网络的语音转换模型，包括以下步骤：a.使用所述语音转换模型对原说话人语音进行转换；b.分别提取转换后的语音和目标说话人语音的音频特征；c.将转换后的语音和目标说话人语音的音频特征分别输入预训练好的说话人特征编码器中，分别得到原说话人特征嵌入向量和目标说话人特征嵌入向量；d.计算原说话人特征嵌入向量和目标说话人特征嵌入向量之间的损失；e.将所述损失反向传播到所述语音转换模型中，从而更新所述语音转换模型的参数；f.使用

2023-07-24

451KB

语音增强模型生成方法和装置、语音增强方法和装置.pdf

本申请公开了一种语音增强模型生成方法和装置，涉及语音技术、计算机视觉、深度学习技术领域。该方法的一个具体实施方式包括：获取样本语音信号的样本时频域谱图集，样本时频域谱图集包括至少一个样本时频域谱图；获取预先建立的深度神经网络，深度神经网络包括：平滑模块、网络模块，平滑模块用于对输入的图像进行平滑处理，得到平滑特征图；执行以下训练步骤：从样本时频域谱图集中选取样本时频域谱图，并将选取的样本时频域谱图以及与选取的样本时频域谱图对应的平滑特征图同时输入网络模块；响应于确定深度神经网络满足训练完成条件，则将深度神

2023-06-14

755KB

语音转换模型训练方法、语音转换方法及装置、设备.pdf

本申请涉及语音处理技术领域，提供了一种语音转换模型训练方法、语音转换方法及装置、设备，语音转换模型训练方法包括：获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本，并将其输入到语音转换模型得到对应的第一说话人特征向量、第二说话人特征向量以及第三说话人特征向量，确定第一说话人特征向量与第二说话人特征向量之间的第一相似度值，第三说话人特征向量与第一说话人特征向量或者第二说话人特征向量之间的第二相似度值，并以最大化第一相似度值，最小化第二相似度值为训练目标，对语音转换模型进

2023-07-21

918KB

语音转换模型训练方法及装置、语音转换方法及装置.pdf

本发明涉及语音转换领域的语音转换模型训练方法及装置、语音转换方法及装置，模型训练方法，包括步骤：获取第一语音和与所述第一语音内容相同的文本数据，以所述文本数据计算第一内容特征；提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量；将所述第一隐变量和所述第一说话人特征输入流模型，以所述第一说话人特征为条件，计算输出第二说话特征，以第二说话特征和第一内容特征计算损失函数，提取达到预设优化参量后的第一隐变量，将优化后的第一隐变量输入解码器得到预测语音。本发明技术很好地保留

2023-11-05

353KB

语音转换的方法、训练语音合成模型的方法及装置.pdf

本申请提供一种语音转换的方法、训练语音合成模型的方法及装置，该方法包括，获取目标用户的待转换文本；通过语音合成模型对待转换文本进行转换，得到待转换文本对应的语音，其中，语音合成模型是根据目标用户的语言能力等级，通过语言能力等级对应的预设比例的多个语种的语音样本、多个语种的字词语音样本和多个语种的发音因素样本对基础模型进行训练得到的，不同的语言能力等级对应的预设比例不同，基础模型是通过基础预设比例的多个语种的语音样本以及多个语种的混合语音样本对通用模型进行训练得到的。通过该方法可以达到提高语音转换的准确率的

2023-07-20

507KB