预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113870830A(43)申请公布日2021.12.31(21)申请号202111138984.6(22)申请日2021.09.27(71)申请人平安科技(深圳)有限公司地址518057广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人张旭龙王健宗(74)专利代理机构深圳市力道知识产权代理事务所(普通合伙)44507代理人张传义(51)Int.Cl.G10L13/033(2013.01)G10L25/48(2013.01)权利要求书3页说明书11页附图3页(54)发明名称基于人工智能的语音合成方法、装置、设备及存储介质(57)摘要本申请涉及人工智能中的语音合成领域,提供了一种语音合成方法,包括:获取移动终端发送的语音数据,其中,所述语音数据为由所述移动终端的用户定制的目标对象的语音数据;根据所述语音数据生成语音样本数据集,获取用于将道路导航信息转化为语音数据的语音合成模型;根据所述语音样本数据集对所述语音合成模型进行迭代训练,得到用于合成与所述目标对象具有相同音色的语音数据的目标语音合成模型;将目标语音合成模型发送给移动终端。本申请实现了地图导航的语音多样化和个性化,使得用户可以定制化导航的播报声音,极大地提高了用户体验。本申请还涉及区块链技术,上述语音样本数据集可存储在区块链中。CN113870830ACN113870830A权利要求书1/3页1.一种基于人工智能的语音合成方法,其特征在于,包括:获取移动终端发送的语音数据,其中,所述语音数据为由所述移动终端的用户定制的目标对象的语音数据;根据所述语音数据生成语音样本数据集,获取用于将道路导航信息转化为语音数据的语音合成模型;根据所述语音样本数据集对所述语音合成模型进行迭代训练,得到用于合成与所述目标对象具有相同音色的语音数据的目标语音合成模型;将所述目标语音合成模型发送给所述移动终端,以供所述移动终端在获取到道路导航信息时,运行所述目标语音合成模型对所述道路导航信息进行处理,得到与所述目标对象具有相同音色的导航语音数据,并播报所述导航语音数据。2.根据权利要求1所述的语音合成方法,其特征在于,所述语音合成模型包括音素编码器、拼接层、可变自适应器,所述根据所述语音样本数据集对所述语音合成模型进行迭代训练,包括:从所述语音样本数据集中选择一个语音样本数据作为目标样本数据;将所述目标样本数据中的音素信息输入所述音素编码器进行编码,得到音素向量;将所述目标样本数据中的第一音素时长序列、第一音高序列和第一能量序列输入所述拼接层进行拼接,得到目标融合特征;将所述音素向量、第一音素时长序列、第一音高序列、第一能量序列和目标融合特征输入所述可变自适应器进行处理,得到第二音素时长序列、第二音高序列和第二能量序列;根据所述第一音素时长序列、第一音高序列、第一能量序列、第二音素时长序列、第二音高序列和第二能量序列,确定模型损失值;根据所述模型损失值确定所述语音合成模型是否收敛,若所述语音合成模型未收敛,则更新所述语音合成模型的参数;返回执行从所述语音样本数据集中选择一个语音样本数据作为目标样本数据的步骤,直至所述语音合成模型收敛。3.根据权利要求2所述的语音合成方法,其特征在于,所述可变自适应器包括持续时长预测层、音高预测层、能量预测层,所述将所述音素向量、第一音素时长序列、第一音高序列、第一能量序列和目标融合特征输入所述可变自适应器进行处理,得到第二音素时长序列、第二音高序列和第二能量序列,包括:将所述音素向量、所述目标融合特征和所述第一音素时长序列输入所述持续时长预测层进行音素时长预测,得到第二音素时长序列;将所述音素向量、所述目标融合特征和所述第一音高序列输入所述音高预测层进行音高预测,得到第二音高序列;将所述音素向量、所述目标融合特征和所述第一能量序列输入所述能量预测层进行能量预测,得到第二能量序列。4.根据权利要求2所述的语音合成方法,其特征在于,所述根据所述第一音素时长序列、第一音高序列、第一能量序列、第二音素时长序列、第二音高序列和第二能量序列,确定模型损失值,包括:基于预设均方误差函数,计算所述第一音素时长序列与所述第二音素时长序列之间的2CN113870830A权利要求书2/3页均方误差,得到第一损失值;基于预设均方误差函数,计算所述第一音高序列与所述第二音高序列之间的均方误差,得到第二损失值;基于预设均方误差函数,计算所述第一能量序列与所述第二能量序列之间的均方误差,得到第三损失值;对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到模型损失值。5.根据权利要求1‑4中任一项所述的语音合成方法,其特征在于,所述根据所述语音数据生成语音样本数据集,包括: