预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114242032A(43)申请公布日2022.03.25(21)申请号202111601414.6(22)申请日2021.12.24(71)申请人广州酷狗计算机科技有限公司地址510660广东省广州市天河区黄埔大道中315号自编1-17(72)发明人黄杰雄轩晓光关迪聆陈传艺高阳升(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人李芳(51)Int.Cl.G10L13/02(2013.01)G10L13/08(2013.01)G10L25/63(2013.01)G10L13/033(2013.01)权利要求书3页说明书13页附图5页(54)发明名称语音合成方法、装置、设备、存储介质及程序产品(57)摘要本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品,涉及人工智能领域。该方法包括:响应于文本输入操作,获取输入文本;响应于语音类型选择操作,确定目标语音类型,所述目标语音类型包括目标情感类型与目标音色类型;响应于语音合成操作,按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音,所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。本申请实施例提供的方法,可使合成语音具有用户指定的情感特性与音色特性,丰富语音效果,有助于提高合成语音的真实性与自然性。CN114242032ACN114242032A权利要求书1/3页1.一种语音合成方法,其特征在于,所述方法包括:响应于文本输入操作,获取输入文本;响应于语音类型选择操作,确定目标语音类型,所述目标语音类型包括目标情感类型与目标音色类型;响应于语音合成操作,按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音,所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。2.根据权利要求1所述的方法,其特征在于,所述按照所述目标语音类型对所述输入文本进行语音合成,得到目标语音,包括:对所述输入文本进行音素转化,得到所述输入文本的文本音素;将所述文本音素以及所述目标语音类型输入声学模型,得到目标声学特征,所述声学模型用于基于音素、情感以及音色合成声学特征;利用声码器对所述目标声学特征进行语音合成,得到所述目标语音。3.根据权利要求2所述的方法,其特征在于,所述对所述输入文本进行音素转化,得到所述输入文本的文本音素,包括:对所述输入文本进行文本正则处理,得到正则化文本,所述正则化文本用于表示所述输入文本的发音方式;对所述正则化文本进行韵律分析,得到所述正则化文本的韵律特征;对所述正则化文本进行多音字分析,得到所述正则化文本中目标多音字的发音类别;基于所述正则化文本、韵律特征以及所述多音字的发音类别进行字音转换,得到所述文本音素。4.根据权利要求3所述的方法,其特征在于,所述对所述输入文本进行文本正则处理,得到正则化文本,包括:确定所述输入文本中非规范文本对应的规则类型,其中,所述非规范文本包括所述输入文本中的数字或符号中的至少一种,不同规则类型对应不同发音方式;基于所述规则类型对所述非规范文本进行文本正则处理,得到所述正则化文本。5.根据权利要求3所述的方法,其特征在于,所述对所述正则化文本进行韵律分析,得到所述正则化文本的韵律特征,包括:对所述正则化文本进行分词处理,得到所述正则化文本中的各个词组;对所述各个词组间韵律进行韵律强度分类,得到所述正则化文本的韵律特征,所述韵律特征用于表征所述各个词组间的停顿方式,不同韵律强度对应不同停顿方式。6.根据权利要求3所述的方法,其特征在于,所述对所述正则化文本进行多音字分析,得到所述正则化文本中目标多音字的发音类别,包括:将所述正则化文本输入多音字分类模型进行发音预测,得到所述目标多音字的预测发音类别;将所述预测发音类别与所述目标多音字的候选发音类别进行匹配,得到所述目标多音字的目标发音类别,所述候选发音类别包括所述目标多音字的各种发音类别。7.根据权利要求6所述的方法,其特征在于,所述将所述预测发音类别与所述目标多音字的候选发音类别进行匹配,得到所述目标多音字的目标发音类别,包括:2CN114242032A权利要求书2/3页在所述预测发音类别属于所述候选发音类别的情况下,将所述预测发音类别确定为所述目标发音类别;在所述预测发音类别不属于所述候选发音类别的情况下,基于所述候选发音类别确定所述目标发音类别,所述目标发音类别是所述候选发音类别中其中一种。8.根据权利要求1至7任一所述的方法,其特征在于,所述目标语音类型包括所述目标情感类型,所述响应于语音类型选择操作,确定目标语音类型,包括:响应于对情感类型选择控件的触发操作,显示情感选择界面,所述情感选择界面中包含至少一种情感类型对应的情