语音转换模型训练方法及装置、语音转换方法及装置-豆柴文库

语音转换模型训练方法及装置、语音转换方法及装置.pdf

2023-11-05

10金币

353KB

10页

一只****爱敏

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114974218A(43)申请公布日2022.08.30(21)申请号202210554179.X(22)申请日2022.05.20(71)申请人杭州小影创新科技股份有限公司地址310000浙江省杭州市西湖区文三路478号华星时代广场A座22层(72)发明人盛乐园(74)专利代理机构杭州裕阳联合专利代理有限公司33289专利代理师田金霞(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/16(2006.01)G10L15/22(2006.01)G10L19/008(2013.01)权利要求书2页说明书5页附图2页(54)发明名称语音转换模型训练方法及装置、语音转换方法及装置(57)摘要本发明涉及语音转换领域的语音转换模型训练方法及装置、语音转换方法及装置，模型训练方法，包括步骤：获取第一语音和与所述第一语音内容相同的文本数据，以所述文本数据计算第一内容特征；提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量；将所述第一隐变量和所述第一说话人特征输入流模型，以所述第一说话人特征为条件，计算输出第二说话特征，以第二说话特征和第一内容特征计算损失函数，提取达到预设优化参量后的第一隐变量，将优化后的第一隐变量输入解码器得到预测语音。本发明技术很好地保留了说话人的语气语调等信息。CN114974218ACN114974218A权利要求书1/2页1.一种语音转换模型训练方法，其特征在于，获取第一语音和与所述第一语音内容相同的文本数据，以所述文本数据计算第一内容特征；提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量；将所述第一隐变量和所述第一说话人特征输入流模型，以所述第一说话人特征为条件，计算输出第二说话特征，以第二说话特征和第一内容特征计算损失函数，提取达到预设优化参量后的第一隐变量，将优化后的第一隐变量输入解码器得到预测语音。2.根据权利要求1所述的语音转换模型训练方法，其特征在于，所述提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括：采用后验编码器，以所述第一频谱特征计算第一隐变量，所述后验编码器包括若干WaveNet残差模型。3.根据权利要求1所述的语音转换模型训练方法，其特征在于，所述提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量的具体方法包括：采用说话人编码器，以所述第一频谱特征计算第一说话人特征，所述说话人编码器包括Conformer模型。4.根据权利要求1所述的语音转换模型训练方法，其特征在于，所述流模型包括若干WaveNet的残差块，用于构建内容特征与隐变量的映射关系，内容特征经过流模型转换成隐变量，所述隐变量经过流模型转换为内容特征。5.根据权利要求1所述的语音转换模型训练方法，其特征在于，以所述文本数据计算第一内容特征的方法包括：将文本数据通过字形得到与文本对应的音素，对文本的音素进行表征，由CBHG模块对表征的特征进行编码，得到第一内容特征。6.一种语音转换方法，其特征在于，包括根据权利要求1‑5所述的语音转换模型训练方法训练得到的流模型，还包括步骤：获取与源音频说话人信息无关的第一音频特征P1；获取需转化的目标说话人语音，提取目标说话人语音的频谱特征，输出第二频谱特征，通过所述第二频谱特征计算第二说话特征S2；将所述第二说话特征和所述第一音频特征输入流模型，得到第二隐变量Z2，将所述第二隐变量解码生成目标音频；获取与源音频说话人信息无关的第一音频特征的方法包括采用内容编码器进行编码转换。7.根据权利要求6所述的语音转换方法，其特征在于，所述说话人信息包括说话人音色。8.根据权利要求6所述的语音转换方法，其特征在于，获取与源音频说话人信息无关的第一音频特征的方法包括：将所述第一隐变量和所述第二说话人特征输入流模型，以所述第二说话人特征为条2CN114974218A权利要求书2/2页件，计算输出第二说话特征P1。9.一种语音转换模型训练装置，其特征在于，包括：主控器，获取第一语音，计算第一频谱特征，计算与第一语音相同的文本数据，并控制数据在内容编码器、后验编码器、流模型单元以及解码器之间的输入输出；内容编码器，获取与第一语音内容相同的文本数据，以所述文本数据计算第一内容特征；后验编码器，接收第一频谱特征，通过所述第一频谱特征计算第一隐变量；说话人编码器，接收第一频谱特征，通过所述第一频谱特征计算第一说话人特征；流模型单元，接收第一隐变量和所述第一说话人特征，以所述第一说话人特征为条件，计算输出第二说话特征，以第

相关资料

语音转换模型训练方法及装置、语音转换方法及装置.pdf

本发明涉及语音转换领域的语音转换模型训练方法及装置、语音转换方法及装置，模型训练方法，包括步骤：获取第一语音和与所述第一语音内容相同的文本数据，以所述文本数据计算第一内容特征；提取第一语音的频谱特征，输出第一频谱特征，通过所述第一频谱特征计算第一说话人特征和第一隐变量；将所述第一隐变量和所述第一说话人特征输入流模型，以所述第一说话人特征为条件，计算输出第二说话特征，以第二说话特征和第一内容特征计算损失函数，提取达到预设优化参量后的第一隐变量，将优化后的第一隐变量输入解码器得到预测语音。本发明技术很好地保留

2023-11-05

353KB

语音转换模型训练方法、语音转换方法及装置、设备.pdf

本申请涉及语音处理技术领域，提供了一种语音转换模型训练方法、语音转换方法及装置、设备，语音转换模型训练方法包括：获取第一说话者说话的第一语音音频样本和第二语音音频样本、第二说话者说话的第三语音音频样本，并将其输入到语音转换模型得到对应的第一说话人特征向量、第二说话人特征向量以及第三说话人特征向量，确定第一说话人特征向量与第二说话人特征向量之间的第一相似度值，第三说话人特征向量与第一说话人特征向量或者第二说话人特征向量之间的第二相似度值，并以最大化第一相似度值，最小化第二相似度值为训练目标，对语音转换模型进

2023-07-21

918KB

基于域分离的语音转换模型的训练方法及装置.pdf

本发明公开了一种基于域分离的语音转换模型的训练方法及装置，该方法包括：接收训练语音并对训练语音进行特征提取，得到训练语音的梅尔频率倒谱系数；将梅尔频率倒谱系数分别输入到内容编码器和音色编码器中，得到音素特征向量和音色特征向量；分别对音素特征向量、音色特征向量进行分类处理，得到第一分类误差和第二分类误差；将音素特征向量、音色特征向量进行拼接后输入到解码器中，得到重构误差；根据第一分类误差、第二分类误差、重构误差计算语音转换模型的整体损失以对语音转换模型进行更新。本发明基于语音合成技术，通过采用域分离技术对语

2023-06-25

1MB

语音转换的方法、训练语音合成模型的方法及装置.pdf

本申请提供一种语音转换的方法、训练语音合成模型的方法及装置，该方法包括，获取目标用户的待转换文本；通过语音合成模型对待转换文本进行转换，得到待转换文本对应的语音，其中，语音合成模型是根据目标用户的语言能力等级，通过语言能力等级对应的预设比例的多个语种的语音样本、多个语种的字词语音样本和多个语种的发音因素样本对基础模型进行训练得到的，不同的语言能力等级对应的预设比例不同，基础模型是通过基础预设比例的多个语种的语音样本以及多个语种的混合语音样本对通用模型进行训练得到的。通过该方法可以达到提高语音转换的准确率的

2023-07-20

507KB

模型的训练方法、装置、语音转换方法、设备及存储介质.pdf

本申请涉及语音处理领域，并公开了一种语音转换模型的训练方法、装置、语音转换方法、设备及存储介质，所述方法包括：获取样本音频，将所述样本音频转换为样本梅尔频谱，所述样本音频包括无标签音频和有标签音频；采集噪声音频，并将所述噪声音频和所述样本梅尔频谱共同输入生成网络，得到输出梅尔频谱，所述噪声音频为无标签音频；将所述输出梅尔频谱输入判别网络，得到所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签；根据所述输出梅尔频谱的类型概率和所述输出梅尔频谱的标签对所述生成网络和所述判别网络进行交替迭代训练，并将训练完成的

2023-06-25

591KB