一种语音合成模型的训练方法、装置、设备以及存储介质-豆柴文库

一种语音合成模型的训练方法、装置、设备以及存储介质.pdf

2023-07-24

10金币

775KB

19页

猫巷****晓容

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114267328A(43)申请公布日2022.04.01(21)申请号202111532052.X(22)申请日2021.12.14(71)申请人北京达佳互联信息技术有限公司地址100085北京市海淀区上地西路6号1幢1层101D1-7(72)发明人叶奎(74)专利代理机构北京中博世达专利商标代理有限公司11274代理人申健(51)Int.Cl.G10L13/08(2013.01)G06K9/62(2022.01)权利要求书2页说明书11页附图5页(54)发明名称一种语音合成模型的训练方法、装置、设备以及存储介质(57)摘要本公开关于一种语音合成模型的训练方法、装置、设备以及存储介质，涉及计算机技术领域。本公开实施例至少解决相关技术中，训练到的语音合成模型不是最优的问题。该方法包括：确定连续训练得到目标语音合成模型的目标训练次数；目标语音合成模型的损失值大于或者等于当前最小损失值；当前最小损失值为连续训练得到的损失值中的最小值；在目标训练次数大于或者等于训练次数阈值的情况下，降低语音合成模型的当前丢弃率以及当前学习率；基于降低后的当前丢弃率以及降低后的当前学习率，训练得到下一语音合成模型。CN114267328ACN114267328A权利要求书1/2页1.一种语音合成模型的训练方法，其特征在于，包括：确定连续训练得到目标语音合成模型的目标训练次数；所述目标语音合成模型的损失值大于或者等于当前最小损失值；所述当前最小损失值为所述连续训练得到的损失值中的最小值；在所述目标训练次数大于或者等于训练次数阈值的情况下，降低语音合成模型的当前丢弃率以及当前学习率；基于降低后的所述当前丢弃率以及降低后的所述当前学习率，训练得到下一语音合成模型。2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述确定连续训练得到目标语音合成模型的目标训练次数，包括：在训练得到当前语音合成模型之后，获取所述当前语音合成模型的损失值；在所述当前语音合成模型的损失值小于所述当前最小损失值的情况下，重置当前训练次数；在所述当前语音合成模型的损失值大于或者等于当前最小损失值的情况下，基于第一预设数值增量更新所述当前训练次数，并确定更新后的所述当前训练次数为所述目标训练次数。3.根据权利要求2所述语音合成模型的训练方法，其特征在于，所述方法还包括：在所述当前语音合成模型的损失值小于所述当前最小损失值的情况下，将所述当前语音合成模型的损失值更新为所述当前最小损失值。4.根据权利要求2所述的语音合成模型的训练方法，其特征在于，所述降低语音合成模型的当前丢弃率以及当前学习率，包括：确定所述当前丢弃率与预设的下降率的乘积，为降低后的所述当前丢弃率；确定所述当前学习率与所述下降率的乘积，为所述下一语音合成模型降低后的学习率。5.一种语音合成模型的训练方法，其特征在于，包括：获取多个语音合成模型，并对所述多个语音合成模型进行测试，以得到多个测试结果；所述多个语音合成模型为根据权利要求1‑4中任一项权利要求所述的语音合成模型的训练方法训练得到的；基于得到的所述多个测试结果，从所述多个语音合成模型中确定最优语音合成模型。6.一种语音合成模型的训练装置，其特征在于，包括确定单元、调整单元以及训练单元；所述确定单元，用于确定连续训练得到目标语音合成模型的目标训练次数；所述目标语音合成模型的损失值大于或者等于当前最小损失值；所述当前最小损失值为所述连续训练得到的损失值中的最小值；所述调整单元，用于在所述目标训练次数大于或者等于训练次数阈值的情况下，降低语音合成模型的当前丢弃率以及当前学习率；所述训练单元，用于基于降低后的所述当前丢弃率以及降低后的所述当前学习率，训练得到下一语音合成模型。7.一种语音合成模型的训练装置，其特征在于，包括获取单元、测试单元以及确定单2CN114267328A权利要求书2/2页元；所述获取单元，用于获取多个语音合成模型；所述多个语音合成模型为由权利要求6所述的语音合成模型的训练装置训练得到的；所述测试单元，用于对所述多个语音合成模型进行测试，以得到多个测试结果；所述确定单元，用于基于得到的所述多个测试结果，从所述多个语音合成模型中确定最优语音合成模型。8.一种服务器，其特征在于，包括：处理器、用于存储所述处理器可执行的指令的存储器；其中，所述处理器被配置为执行指令，以实现所述权利要求1‑4或者5中任一项所述的语音合成模型的训练方法。9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1‑4或者5中任一项所述的语音合成模型的训练方法。10.一种计算机程序产品，包括指令，其特征在于，所述计算机程序产品

相关资料

一种语音合成模型的训练方法、装置、设备以及存储介质.pdf

本公开关于一种语音合成模型的训练方法、装置、设备以及存储介质，涉及计算机技术领域。本公开实施例至少解决相关技术中，训练到的语音合成模型不是最优的问题。该方法包括：确定连续训练得到目标语音合成模型的目标训练次数；目标语音合成模型的损失值大于或者等于当前最小损失值；当前最小损失值为连续训练得到的损失值中的最小值；在目标训练次数大于或者等于训练次数阈值的情况下，降低语音合成模型的当前丢弃率以及当前学习率；基于降低后的当前丢弃率以及降低后的当前学习率，训练得到下一语音合成模型。

2023-07-24

775KB

语音合成模型的训练方法、装置、电子设备及存储介质.pdf

本公开提供了一种语音合成模型的训练方法、装置、电子设备及存储介质，所述方法包括：将第一语音样本对应的音乐信息，输入至时长提取模块，获取乐谱样本嵌入值；将乐谱样本嵌入值和乐谱样本嵌入值对应的音高样本嵌入值输入至线性变换模块，进行降维；将线性变换模块的输出，作为框架网络模块的输入，获取音乐信息对应的第一预测样本特征；获取第一语音样本对应的隐特征；将隐特征输入至解码器中，获取隐特征对应的预测语音样本；基于第一语音样本和所述预测语音样本，调整解码器的参数；基于第一预测样本特征和隐特征，调整所述线性变换模块和框架网

2023-12-02

761KB

语音合成模型的训练方法、装置、电子设备及存储介质.pdf

本申请公开了语音合成模型的训练方法、装置、电子设备及存储介质。方法包括：获取待处理的初始文本，并检测初始文本携带的字符，得到初始文本对应的初始韵律结构；获取初始文本对应的目标个性化语音，并确定目标个性化语音所包括每一个音素的对齐结果；利用对齐结果修正初始文本对应的初始韵律结构，得到目标韵律结构，并基于目标音律结构生成目标文本；基于目标文本的目标韵律结构以及目标个性化语音训练预设神经网络模型，得到语音合成模型。本申请通过对齐结果对初始韵律结构中不连贯的部分进行修正，通过目标文本保证录音和文本的韵律结构一致。

2023-07-21

416KB

一种模型训练方法、装置、设备以及存储介质.pdf

本申请提供一种模型训练方法、装置、设备以及存储介质，所述模型训练方法，包括：获取训练图像和多个锚点，所述训练图像中包括多个目标，所述多个目标中包括点框标注目标和点标注目标，所述点标注目标包括标注点，所述点框标注目标包括标注点和标注框；根据所述训练图像、所述多个锚点、所述点标注目标的标注点，以及，所述点框标注目标的标注点和标注框，对待训练模型进行训练；其中，所述多个锚点用于生成目标的预测框和类别得分。节省了模型训练过程中的标注时间。

2023-07-24

868KB

语音合成方法、模型训练方法、设备及存储介质.pdf

本申请提供一种语音合成方法、模型训练方法、设备及存储介质，该语音合成方法包括：获取待合成文本，输入到训练好的目标语音合成模型，得到待合成文本对应的目标语音；其中，根据预训练集对预设的语音合成模型进行预训练得到语音合成模型；采用目标应用场景对应的目标时长预测网络替换语音合成模型的时长预测网络，得到目标语音合成模型；获取目标训练集，目标训练集包括目标说话人的语音样本；从预训练集中挑选出目标说话人的同类说话人的语音样本进行mask加噪得到加噪语音样本；根据目标训练集和加噪语音样本对目标语音合成模型进行训练，得到

2023-07-24

1.2MB