语音合成、情绪迁移、交互方法、存储介质、程序产品-豆柴文库

语音合成、情绪迁移、交互方法、存储介质、程序产品.pdf

2023-07-22

10金币

1.2MB

24页

文库****坚白

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共24页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114882868A(43)申请公布日2022.08.09(21)申请号202210481757.1G10L25/24(2013.01)(22)申请日2022.05.05(71)申请人浙江猫精人工智能科技有限公司地址311121浙江省杭州市余杭区仓前街道余杭塘路2699号2幢801室(72)发明人张光琰张文杰石强盖于涛姜飞俊(74)专利代理机构北京合智同创知识产权代理有限公司11545专利代理师李杰张美洁(51)Int.Cl.G10L13/08(2013.01)G10L13/04(2013.01)G10L13/033(2013.01)G10L25/63(2013.01)权利要求书3页说明书12页附图8页(54)发明名称语音合成、情绪迁移、交互方法、存储介质、程序产品(57)摘要本申请提供了一种语音合成、情绪迁移方法、存储介质、程序产品，语音生成方法，包括：根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到待合成语音文本对应的音素级别的韵律信息；将音素级别的韵律信息上采样至语音帧级别，得到待合成语音文本对应的语音帧特征；将目标说话人的音色特征融入语音帧特征，并根据融入音色特征后的语音帧特征，生成与待合成语音文本对应的、并且以目标情绪表达的目标说话人语音。本方案先根据和音色无关的音素序列以及情绪生成韵律信息，再将音色融入韵律信息，可以将音色和韵律进行解耦，保证了语音帧特征中的音色仅包括目标说话人的音色，并可以通过语音的韵律准确表达目标情绪，提高了合成的语音的质量。CN114882868ACN114882868A权利要求书1/3页1.一种语音生成方法，包括：根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息，其中，所述目标情绪包括目标情绪标签，或者包括目标情绪标签及目标情绪强度；将所述音素级别的韵律信息上采样至语音帧级别，得到所述待合成语音文本对应的语音帧特征；将目标说话人的音色特征融入所述语音帧特征，并根据融入音色特征后的语音帧特征，生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。2.根据权利要求1所述的方法，其中，所述目标说话人的音色特征通过下述步骤得到：获得所述目标说话人的样本语音；通过音色编码器对所述样本语音进行音色特征提取，得到所述目标说话人的候选音色特征；对所述样本语音进行音素级别的韵律信息提取，得到样本韵律信息；将所述样本韵律信息上采样至语音帧级别，得到所述样本语音对应的语音帧特征；将所述目标说话人的候选音色特征融入所述样本语音对应的语音帧特征，并根据融入音色特征后的语音帧特征，生成得到样本语音对应的预测语音；根据所述样本语音和预测语音之间的差异，调整所述目标说话人的候选音色特征。3.根据权利要求2所述的方法，其中，所述音色编码器还包括：说话人特征提取模块和瓶颈层，所述目标说话人的音色特征还通过下述步骤得到：通过所述说话人特征提取模块对所述目标说话人的样本语音进行特征提取，得到所述目标说话人的特征向量；通过所述瓶颈层，过滤所述目标说话人的特征向量，得到所述目标说话人的音色特征。4.根据权利要求1所述的方法，其中，所述根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息，包括：确定所述目标情绪对应的情绪特征向量；通过音素编码器，对所述待合成语音文本对应的音素序列中的各个音素进行编码，得到音素向量序列；通过韵律预测器，根据所述情绪特征向量，对所述音素向量序列中的各个音素向量进行韵律生成，得到所述待合成语音文本对应的音素级别的韵律信息；其中，所述音素编码器和所述韵律预测器通过下述方法训练：将样本语音输入至情绪分类器，通过所述情绪分类器对所述样本语音进行情绪分类，并输出所述样本语音对应的样本情绪标签，根据所述样本情绪标签得到对应的样本情绪特征向量；将所述样本语音对应的音素序列输入至所述音素编码器，通过所述音素编码器对所述样本语音对应的音素序列中的各个音素进行编码，得到样本音素向量序列；通过所述韵律预测器，根据所述样本情绪特征向量，对所述样本音素向量序列中的各个样本音素向量进行韵律预测，得到音素级别的预测韵律信息；对所述样本语音进行韵律信息提取得到音素级别的样本韵律信息；根据所述预测韵律信息和所述样本韵律信息之间的差异，调整所述情绪分类器、所述2CN114882868A权利要求书2/3页音素编码器和所述韵律预测器。5.根据权利要求4所述的方法，其中，所述将样本语音输入至情绪分类器，通过所述情绪分类器对所述样本语音进行情绪分类，并输出所述样本语音对应的样本情绪标签，根据所述样本情绪标签得到对应的样本情绪特征向量，包括：将样本语音

相关资料

语音合成、情绪迁移、交互方法、存储介质、程序产品.pdf

本申请提供了一种语音合成、情绪迁移方法、存储介质、程序产品，语音生成方法，包括：根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成，得到待合成语音文本对应的音素级别的韵律信息；将音素级别的韵律信息上采样至语音帧级别，得到待合成语音文本对应的语音帧特征；将目标说话人的音色特征融入语音帧特征，并根据融入音色特征后的语音帧特征，生成与待合成语音文本对应的、并且以目标情绪表达的目标说话人语音。本方案先根据和音色无关的音素序列以及情绪生成韵律信息，再将音色融入韵律信息，可以将音色和韵律进行解耦，保证了语音帧特

2023-07-22

1.2MB

语音交互方法、装置、设备、存储介质及程序产品.pdf

本公开提供了一种语音交互方法、装置、设备、存储介质及程序产品，涉及人工智能技术领域，尤其涉及语音技术领域、自然语言处理技术领域、深度学习技术领域。具体实现方案为：监测目标驾舱是否满足语音交互模式的切换条件，语音交互模式包括舱内语音交互模式和舱外语音交互模式；若确定满足语音交互模式的切换条件，则将语音交互模式从当前语音交互模式切换为另一种语音交互模式；采用另一种语音交互模式与目标用户进行语音交互。本公开能够在满足语音交互模式的切换条件时，实现对语音交互模式之间的切换，而且能够实现与用户的多种语音交互方式，全

2023-07-24

982KB

语音识别方法、交互方法、存储介质及程序产品.pdf

本申请实施例提供了一种语音识别方法、交互方法、存储介质及程序产品，语音识别方法，包括：根据待识别语音的语音特征，获得所述待识别语音对应的多个候选字符序列及其对应的第一分数；获取所述待识别语音对应的发音对象的偏好词语；将多个所述候选字符序列与所述偏好词语进行匹配，根据匹配结果确定多个所述候选字符序列分别对应的第二分数；根据多个所述候选字符序列各自对应的第一分数以及第二分数，从多个所述候选字符序列中确定出作为语音识别结果的目标字符序列。

2023-07-24

977KB

语音交互方法、装置、终端设备、存储介质及程序产品.pdf

本申请实施例提供了一种语音交互方法、装置、终端设备、存储介质及程序产品。该方法通过获取用户输入的用户语音，然后，根据用户语音对应的信息以及终端设备的当前工作状态，确定用于响应用户语音的反馈指令，从而根据反馈指令将终端设备自动从当前工作状态切换至另一工作状态，和/或，执行反馈指令对应的目标动作，和/或，执行对话交流，从而通过结合用户语音识别结果与当前工作状态这两个维度联合确定结果的方式，可以使得终端设备在与用户进行语音交互时，能够更加智能、方便、顺畅。

2023-07-25

688KB

语音合成方法、装置、设备、存储介质及程序产品.pdf

本申请公开了一种语音合成方法、装置、设备、存储介质及程序产品，涉及人工智能领域。该方法包括：获取目标文本的目标音素、目标情感以及目标音色；对目标音素对应的目标音素特征与目标情感对应的目标情感特征进行特征融合，得到音素融合特征；基于音素融合特征与目标音色对应的目标音色特征进行发音预测，得到目标音素对应的语音发音特征；对语音发音特征进行特征解码，得到目标声学特征；基于目标声学特征合成目标语音，目标语音与目标文本相对应，目标语音是具有目标情感与目标音色的音频。本申请实施例提供的方法，可得到不同情感以及不同音色的

2023-07-24

940KB