音频合成方法、装置、电子设备和可读存储介质-豆柴文库

音频合成方法、装置、电子设备和可读存储介质.pdf

2023-07-25

10金币

637KB

17页

秀华****魔王

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113870828A(43)申请公布日2021.12.31(21)申请号202111148956.2(22)申请日2021.09.28(71)申请人维沃移动通信有限公司地址523863广东省东莞市长安镇维沃路1号(72)发明人蒋微(74)专利代理机构北京博雅睿泉专利代理事务所(特殊普通合伙)11442代理人孙菲(51)Int.Cl.G10L13/02(2013.01)G10L13/10(2013.01)权利要求书3页说明书10页附图3页(54)发明名称音频合成方法、装置、电子设备和可读存储介质(57)摘要本申请公开了一种音频合成方法、装置、电子设备和可读存储介质，属于语音合成技术领域。该方法包括：获取目标信息；获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；根据所述目标信息和所述韵律特性参数，确定声学特征信息；对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。CN113870828ACN113870828A权利要求书1/3页1.一种音频合成方法，其特征在于，所述方法包括：获取目标信息；获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；根据所述目标信息和所述韵律特性参数，确定声学特征信息；对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。2.根据权利要求1所述的方法，其特征在于，所述根据所述目标信息和所述韵律特性参数，确定声学特征信息，包括：对所述目标信息进行分析，得到文本特征参数，所述文本特征参数包括第一音素序列和文本韵律；根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列，生成第二音素序列；根据所述第二音素序列和所述语速参考向量，确定第一音频特征；根据所述第一音频特征和所述风格向量，确定第二音频特征；基于声学预测模型，根据所述第二音频特征，确定所述声学特征信息。3.根据权利要求2所述的方法，其特征在于，所述根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列，生成第二音素序列，包括：根据所述文本韵律和所述停顿长度参考向量，生成修正后的韵律信息；根据所述修正后的韵律信息和所述第一音素序列，生成第二音素序列。4.根据权利要求2所述的方法，其特征在于，所述根据所述第二音素序列和所述语速参考向量，确定第一音频特征，包括：基于所述第二音素序列进行时长预测，得到第一音素时长；根据所述语速参考向量对所述第一音素时长进行调整，得到第二音素时长；根据所述第二音素时长对所述第二音素序列进行扩展，得到第一音频特征。5.根据权利要求2所述的方法，其特征在于，所述基于声学预测模型，根据所述第二音频特征，确定所述声学特征信息之前，所述方法还包括：获取所述目标发音人的第一音频数据，所述第一音频数据为所述目标发音人朗读预设文本的音频数据；基于所述第一音频数据，进行模型训练，得到所述声学预测模型；其中，所述声学预测模型用于根据第二音频特征得到声学特征信息。6.根据权利要求1所述的方法，其特征在于，所述韵律特性参数包括语速参考向量，所述获取目标发音人的韵律特性参数，包括：获取所述目标发音人的历史音频数据；根据所述历史音频数据，确定所述目标发音人的第一平均语速；根据所述第一平均语速和预设平均语速，确定所述语速参考向量。7.根据权利要求1所述的方法，其特征在于，所述韵律特性参数包括停顿长度参考向量，所述获取目标发音人的韵律特性参数，包括：获取所述目标发音人的历史音频数据；根据所述历史音频数据，确定不同音节长度对应的停顿概率；根据所述不同音节长度对应的停顿概率，确定停顿长度参考向量。2CN113870828A权利要求书2/3页8.一种音频合成装置，其特征在于，所述装置包括：第一获取模块，用于获取目标信息；第二获取模块，用于获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；第一确定模块，用于根据所述目标信息和所述韵律特性参数，确定声学特征信息；生成模块，用于对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。9.根据权利要求8所述的装置，其特征在于，所述第一确定模块，包括：文本分析单元，用于对所述目标信息进行分析，得到文本特征参数，所述文本特征参数包括第一音素序列和文本韵律；第一生成单元，用于根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列，生成第二音素序列；第一确定单元，用于根据所述第二音素序列和所述语速参考向量，确定第一音频特征；第二确定单元，用于根据所述第一音频特征和所述风格向量，确定第二音频特征；第三确定单元，用于基于声学预测模型，根据所述第二音频特征，确定所述声学特征信息。10.根据权利要求9

相关资料

音频合成方法、装置、电子设备和可读存储介质.pdf

本申请公开了一种音频合成方法、装置、电子设备和可读存储介质，属于语音合成技术领域。该方法包括：获取目标信息；获取目标发音人的韵律特性参数，所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量；根据所述目标信息和所述韵律特性参数，确定声学特征信息；对所述声学特征信息进行转换，生成与所述目标信息对应的目标音频数据。

2023-07-25

637KB

音频处理方法、装置、电子设备和可读存储介质.pdf

本申请公开了一种音频处理方法、装置、电子设备和可读存储介质,属于人工智能技术领域。其中,所述方法包括:获取第一音频;获取与所述第一音频匹配的目标中心句;获取所述第一音频中与所述目标中心句对应的第一子序列;在所述目标中心句与所述第一子序列之间的第一相似度小于或者等于第一阈值的情况下,获取所述第一子序列与目标相似序列之间的第二相似度,所述目标相似序列为所述目标中心句的一个相似序列;在所述第二相似度大于第二阈值的情况下,确定所述第一音频包括所述目标中心句。

2023-04-26

631KB

音频播放方法、装置、电子设备和可读存储介质.pdf

本公开提供了一种音频播放方法、装置、电子设备和可读存储介质，涉及语音处理、深度学习等人工智能技术领域。音频播放方法包括：获取待播放语句；根据所述待播放语句的文本内容，得到所述待播放语句的语音情感、语音音色、场景音效与背景音乐；使用所述语音情感与语音音色，生成所述待播放语句的目标音频；播放所述目标音频，并播放所述场景音效与背景音乐。本公开能够提升在音频播放时的用户听感，增强音频播放的真实性与生动性。

2023-07-25

475KB

音频播放的控制方法、装置、电子设备和可读存储介质.pdf

本申请提出一种音频播放的控制方法、装置、电子设备和可读存储介质，涉及人工智能领域，其中，方法包括：获取至少一个用户对象的用户位置和用户姿态；获取自移动设备的多个控制参数组合；预测在各控制参数组合的控制下自移动设备通过配置的声源进行音频播放时，至少一个用户对象在用户位置以用户姿态接收到音频的音频质量；根据至少一个用户对象对应的音频质量，从多个控制参数组合中，确定目标控制参数组合；采用目标控制参数组合控制自移动设备通过声源进行音频播放。由此，根据用户位置和用户姿态，自适应地调整自移动设备的控制参数，使得自移动

2024-01-04

795KB

音频识别方法、装置、电子设备和可读存储介质.pdf

本申请提供一种音频识别方法、装置、电子设备和可读存储介质，首先利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，第一类噪声为非语音噪声。再利用预先构建的第二过滤模型对第一识别音频中的第二类噪声进行过滤得到第二识别音频，第一识别音频中包含目标语音和非目标语音，第二类噪声属于非目标语音。最后，将第二识别音频导入预先构建的识别模型，对第二识别音频中的目标语音进行处理得到对应的文本。该方案，预先对非语音噪声和属于非目标语音的噪声进行过滤处理，降低了语音识别的处理压力且排除各类噪声的干扰

2023-07-24

843KB