语音合成方法、装置、设备、存储介质及程序产品-豆柴文库

语音合成方法、装置、设备、存储介质及程序产品.pdf

2023-07-24

10金币

850KB

22页

努力****妙风

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114242032A(43)申请公布日2022.03.25(21)申请号202111601414.6(22)申请日2021.12.24(71)申请人广州酷狗计算机科技有限公司地址510660广东省广州市天河区黄埔大道中315号自编1-17(72)发明人黄杰雄轩晓光关迪聆陈传艺高阳升(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人李芳(51)Int.Cl.G10L13/02(2013.01)G10L13/08(2013.01)G10L25/63(2013.01)G10L13/033(2013.01)权利要求书3页说明书13页附图5页(54)发明名称语音合成方法、装置、设备、存储介质及程序产品(57)摘要本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：响应于文本输入操作，获取输入文本；响应于语音类型选择操作，确定目标语音类型，所述目标语音类型包括目标情感类型与目标音色类型；响应于语音合成操作，按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。本申请实施例提供的方法，可使合成语音具有用户指定的情感特性与音色特性，丰富语音效果，有助于提高合成语音的真实性与自然性。CN114242032ACN114242032A权利要求书1/3页1.一种语音合成方法，其特征在于，所述方法包括：响应于文本输入操作，获取输入文本；响应于语音类型选择操作，确定目标语音类型，所述目标语音类型包括目标情感类型与目标音色类型；响应于语音合成操作，按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。2.根据权利要求1所述的方法，其特征在于，所述按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，包括：对所述输入文本进行音素转化，得到所述输入文本的文本音素；将所述文本音素以及所述目标语音类型输入声学模型，得到目标声学特征，所述声学模型用于基于音素、情感以及音色合成声学特征；利用声码器对所述目标声学特征进行语音合成，得到所述目标语音。3.根据权利要求2所述的方法，其特征在于，所述对所述输入文本进行音素转化，得到所述输入文本的文本音素，包括：对所述输入文本进行文本正则处理，得到正则化文本，所述正则化文本用于表示所述输入文本的发音方式；对所述正则化文本进行韵律分析，得到所述正则化文本的韵律特征；对所述正则化文本进行多音字分析，得到所述正则化文本中目标多音字的发音类别；基于所述正则化文本、韵律特征以及所述多音字的发音类别进行字音转换，得到所述文本音素。4.根据权利要求3所述的方法，其特征在于，所述对所述输入文本进行文本正则处理，得到正则化文本，包括：确定所述输入文本中非规范文本对应的规则类型，其中，所述非规范文本包括所述输入文本中的数字或符号中的至少一种，不同规则类型对应不同发音方式；基于所述规则类型对所述非规范文本进行文本正则处理，得到所述正则化文本。5.根据权利要求3所述的方法，其特征在于，所述对所述正则化文本进行韵律分析，得到所述正则化文本的韵律特征，包括：对所述正则化文本进行分词处理，得到所述正则化文本中的各个词组；对所述各个词组间韵律进行韵律强度分类，得到所述正则化文本的韵律特征，所述韵律特征用于表征所述各个词组间的停顿方式，不同韵律强度对应不同停顿方式。6.根据权利要求3所述的方法，其特征在于，所述对所述正则化文本进行多音字分析，得到所述正则化文本中目标多音字的发音类别，包括：将所述正则化文本输入多音字分类模型进行发音预测，得到所述目标多音字的预测发音类别；将所述预测发音类别与所述目标多音字的候选发音类别进行匹配，得到所述目标多音字的目标发音类别，所述候选发音类别包括所述目标多音字的各种发音类别。7.根据权利要求6所述的方法，其特征在于，所述将所述预测发音类别与所述目标多音字的候选发音类别进行匹配，得到所述目标多音字的目标发音类别，包括：2CN114242032A权利要求书2/3页在所述预测发音类别属于所述候选发音类别的情况下，将所述预测发音类别确定为所述目标发音类别；在所述预测发音类别不属于所述候选发音类别的情况下，基于所述候选发音类别确定所述目标发音类别，所述目标发音类别是所述候选发音类别中其中一种。8.根据权利要求1至7任一所述的方法，其特征在于，所述目标语音类型包括所述目标情感类型，所述响应于语音类型选择操作，确定目标语音类型，包括：响应于对情感类型选择控件的触发操作，显示情感选择界面，所述情感选择界面中包含至少一种情感类型对应的情

相关资料

语音合成方法、装置、设备、存储介质及程序产品.pdf

本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：响应于文本输入操作，获取输入文本；响应于语音类型选择操作，确定目标语音类型，所述目标语音类型包括目标情感类型与目标音色类型；响应于语音合成操作，按照所述目标语音类型对所述输入文本进行语音合成，得到目标语音，所述目标语音是具有所述目标情感类型对应情感与所述目标音色类型对应音色的音频。本申请实施例提供的方法，可使合成语音具有用户指定的情感特性与音色特性，丰富语音效果，有助于提高合成语音的真实性与自然性。

2023-07-24

850KB

语音合成方法、装置、设备、存储介质及程序产品.pdf

本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：获取目标文本的目标音素、目标情感以及目标音色；对目标音素对应的目标音素特征与目标情感对应的目标情感特征进行特征融合，得到音素融合特征；基于音素融合特征与目标音色对应的目标音色特征进行发音预测，得到目标音素对应的语音发音特征；对语音发音特征进行特征解码，得到目标声学特征；基于目标声学特征合成目标语音，目标语音与目标文本相对应，目标语音是具有目标情感与目标音色的音频。本申请实施例提供的方法，可得到不同情感以及不同音色的

2023-07-24

940KB

语音增强方法、装置、设备、存储介质及程序产品.pdf

本申请公开了一种语音增强方法、装置、设备、存储介质及程序产品，涉及语音技术处理领域。该方法包括：沿频域维度对待进行语音增强的目标音频进行频带切分，得到至少两个子频带；获取至少两个子频带分别对应的子带能量数据；沿时域维度对至少两个子频带分别对应的子带能量数据进行分析，得到至少两个子频带分别对应的子带能量分布数据；当指定子频带对应的子带能量分布数据符合调整条件的情况下，对指定子频带的子带能量数据进行调整，得到目标增强音频。通过以上方式，能够有选择地对目标音频中不符合调整条件的子带能量数据进行调整，在充分考虑目

2023-07-21

1.3MB

语音交互方法、装置、设备、存储介质及程序产品.pdf

本公开提供了一种语音交互方法、装置、设备、存储介质及程序产品，涉及人工智能技术领域，尤其涉及语音技术领域、自然语言处理技术领域、深度学习技术领域。具体实现方案为：监测目标驾舱是否满足语音交互模式的切换条件，语音交互模式包括舱内语音交互模式和舱外语音交互模式；若确定满足语音交互模式的切换条件，则将语音交互模式从当前语音交互模式切换为另一种语音交互模式；采用另一种语音交互模式与目标用户进行语音交互。本公开能够在满足语音交互模式的切换条件时，实现对语音交互模式之间的切换，而且能够实现与用户的多种语音交互方式，全

2023-07-24

982KB

语音控制方法、装置、设备、存储介质以及程序产品.pdf

本公开提供了一种语音控制方法、装置、设备、存储介质以及程序产品，涉及人工智能领域，具体涉及自然语言处理、语音识别、图像识别、车联网和智能座舱技术，可应用于语音控制场景下。该方法的一具体实施方式包括：响应于接收到语音，获取当前页面的截图；对语音进行语音识别得到语音识别结果；利用截图确定页面的图像识别结果，其中，图像识别结果包括关键词和位置，关键词包括页面中的关键词，位置包括关键词在页面中的位置；在图像识别结果中查找与语音识别结果匹配的关键词作为目标关键词；在页面中目标关键词所在的位置处进行模拟操作，生成语音

2023-07-21

855KB