预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共37页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113628608A(43)申请公布日2021.11.09(21)申请号202010415450.2G10L25/30(2013.01)(22)申请日2020.05.15(66)本国优先权数据202010379398.X2020.05.07CN(71)申请人北京三星通信技术研究有限公司地址100028北京市朝阳区太阳宫中路12号楼15层1503申请人三星电子株式会社(72)发明人刘若澜卢春晖陈萧文学楼晓雁(74)专利代理机构北京市立方律师事务所11330代理人张筱宁张海秀(51)Int.Cl.G10L13/02(2013.01)权利要求书3页说明书24页附图9页(54)发明名称语音生成方法、装置、电子设备及可读存储介质(57)摘要本申请实施例提供了一种语音生成方法、装置、电子设备及可读存储介质,同时,由电子设备执行的上述语音生成方法可以使用人工智能模型来执行。而该语音生成方法包括:获取待处理信息;对待处理信息进行编码,得到信息编码结果;基于信息编码结果,生成目标用户对应于目标语言的语音信息。在本申请实施例中,由于在生成语音信息时,是基于目标用户的语音特征、信息编码结果以及目标语言特征来生成的,即在生成语音信息时,考虑到了目标用户的声音特色以及目标语言的语言特征,此时可以保证合成的语音信息与目标用户在说目标语言时的音色更加贴合,提升了语音合成的效果。CN113628608ACN113628608A权利要求书1/3页1.一种语音生成方法,其特征在于,包括:获取待处理信息;对所述待处理信息进行编码,得到信息编码结果;基于所述信息编码结果,生成目标用户对应于目标语言的语音信息。2.根据权利要求1所述的方法,其特征在于,若所述待处理信息为待处理文本,所述基于所述信息编码结果,生成目标用户对应于目标语言的语音信息,包括:获取所述待处理文本的音调特征;基于所述音调特征和所述信息编码结果,生成目标用户对应于目标语言的语音信息。3.根据权利要求1所述的方法,其特征在于,若所述待处理信息为待处理文本,所述对所述待处理信息进行编码,得到信息编码结果,包括:获取所述待处理文本对应的音素特征;对所述音素特征进行文本编码,得到文本编码结果。4.根据权利要求3所述的方法,其特征在于,所述对音素特征进行文本编码,得到文本编码结果,包括:获取所述待处理文本对应的音调特征;对所述音调特征和所述音素特征进行文本编码,得到所述文本编码结果。5.根据权利要求1所述的方法,其特征在于,若所述待处理信息为待处理语音信息,所述对所述待处理信息进行编码,得到信息编码结果,包括:获取所述待处理语音信息对应的音素后验概率;对所述音素后验概率进行编码,得到信息编码结果。6.根据权利要求5所述的方法,其特征在于,所述获取所述待处理语音信息对应的音素后验概率,包括:获取所述待处理语音信息对应于每种候选语言的音素后验概率;将对应于每种候选语言的音素后验概率进行拼接,得到所述待处理语音信息对应的音素后验概率。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法是通过语音生成模型实现的,其中,所述语音生成模型是通过下列方式得到的:获取初始神经网络模型和训练数据,所述训练数据包括各训练样本对,所述训练样本对包括样本输入信息、该样本输入信息对应的样本输出语音信息和样本用户信息标签;其中,所述初始神经网络模型包括初始语音生成模型和初始用户信息分类模块,所述初始语音生成模型包括初始编码模块和初始语音生成模块,初始用户信息分类模块与初始编码模块连接,所述初始编码模块用于对输入信息进行编码,得到样本信息编码结果,所述初始语音生成模块用于基于样本信息编码结果,得到预测语音信息,所述初始用户信息分类模块用于基于样本信息编码结果,得到预测用户信息;基于所述训练数据对所述初始神经网络模型进行训练,直至所述初始神经网络对应的总损失函数收敛,得到训练后的初始神经网络模型,将训练后的初始语音生成模型作为所述语音生成模型;其中,所述总损失函数包括第一损失函数和第二损失函数,所述第一损失函数的值表征了所述输入信息所对应的预测语音信息和样本输出语音信息之间的差异,所述第二失函2CN113628608A权利要求书2/3页数的值表征了所述样本输入信息所对应的预测用户信息和样本用户信息标签之间的差异。8.根据权利要求7所述的方法,其特征在于,所述初始神经网络模型还包括与所述初始编码模块连接的音调分类器,对于所述训练样本对,所述训练样本对还包括样本输入信息对应的样本音调特征;所述音调分类器用于基于样本信息编码结果,得到预测音调特征;所述总损失函数还包括第三损失函数,所述第三损失函数的值表征了所述预测音调特征和所述样本音调特征之间的差异。9.根据