预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115831088A(43)申请公布日2023.03.21(21)申请号202211419993.7(22)申请日2022.11.14(71)申请人普强时代(珠海横琴)信息技术有限公司地址519031广东省珠海市横琴新区宝华路6号105室-58115(集中办公区)(72)发明人司玉景王通李全忠(74)专利代理机构北京八月瓜知识产权代理有限公司11543专利代理师秦莹(51)Int.Cl.G10L13/06(2013.01)G10L13/04(2013.01)权利要求书2页说明书4页附图3页(54)发明名称语音克隆模型生成方法、装置及电子设备(57)摘要本说明书实施例提供了一种语音克隆模型生成方法、装置及电子设备,其中,方法包括:构建包含多个说话人音色的语音合成音库;基于所述语音合成音库训练得到包含多个说话人ID的语音合成基础模型;获取目标说话人的语音和标注,从所述语音合成音库中查找到和所述目标说话人的发音相似度最高的说话人ID;在语音合成基础模型中设置该说话人的ID作为语音克隆的预训练模型,利用目标说话人的语音和标注文本,进行自适应训练,得到所述目标说话人的语音合成模型。本发明可以避免由于预训练模型和目标说话人发音差异较大而导致的语音克隆效果差的现象,进一步提高了语音克隆的合成效果和鲁棒性。CN115831088ACN115831088A权利要求书1/2页1.一种语音克隆模型生成方法,其特征在于,包括:构建包含多个说话人音色的语音合成音库;基于所述语音合成音库训练得到包含多个说话人ID的语音合成基础模型;获取目标说话人的语音和标注,从所述语音合成音库中查找到和所述目标说话人的发音相似度最高的说话人ID;在语音合成基础模型中设置该说话人的ID作为语音克隆的预训练模型,利用目标说话人的语音和标注文本,进行自适应训练,得到所述目标说话人的语音合成模型。2.根据权利要求1所述的方法,其特征在于,获取目标语音,从所述语音合成音库中查找到和所述目标说话人的发音相似度最高的说话人ID具体包括:获取目标说话人的语音和标注文本,计算所述目标说话人的语音和所述语音合成音库中各个说话人声音的发音相似度。3.根据权利要求2所述的方法,其特征在于,获取目标语音,从所述语音合成音库中查找到和所述目标说话人的发音相似度最高的说话人ID具体包括:根据所述发音相似度从所述语音合成音库中查找到和所述目标说话人的发音最像的说话人ID,在语音合成基础模型中设置该说话人ID。4.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:使用基于所述目标说话人语音和标注文本自适应训练的语音合成模型对所述目标说话人进行语音克隆。5.一种语音克隆模型生成装置,其特征在于,包括:构建模块,用于构建包含多个说话人音色的语音合成音库;训练模块,用于基于所述语音合成音库训练得到包含多个说话人ID的语音合成基础模型;查找模块,用于获取目标说话人的语音和标注,从所述语音合成音库中查找到和所述目标说话人的发音相似度最高的说话人ID;自适应模块,用于在语音合成基础模型中设置该说话人的ID作为语音克隆的预训练模型,利用目标说话人的语音和标注文本,进行自适应训练,得到所述目标说话人的语音合成模型。6.根据权利要求5所述的装置,其特征在于,所述查找模块具体用于:获取目标说话人的语音和标注文本,计算所述目标说话人的语音和所述语音合成音库中各个说话人ID声音的发音相似度。7.根据权利要求6所述的装置,其特征在于,所述查找模块具体用于:根据所述发音相似度从所述语音合成音库中查找到和所述目标说话人的发音最像的说话人ID,在语音合成基础模型中设置该说话人ID。8.根据权利要求5所述的装置,其特征在于,所述装置进一步包括:语音克隆模块,用于使用基于所述目标说话人语音和标注文本自适应训练的语音合成模型对所述目标说话人进行语音克隆。9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的语音克隆模型生成方法的步骤。2CN115831088A权利要求书2/2页10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至4中任一项所述的语音克隆模型生成方法的步骤。3CN115831088A说明书1/4页语音克隆模型生成方法、装置及电子设备技术领域[0001]本文件涉及计算机技术领域,尤其涉及一种语音克隆模型生成方法、装置及电子设备。背景技术[0002]语音合成(TextToSpeech,TTS)是指将文本转换为语音信号,广泛用在人机交互、新闻播报、虚拟数字人等领域。语