预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114882868A(43)申请公布日2022.08.09(21)申请号202210481757.1G10L25/24(2013.01)(22)申请日2022.05.05(71)申请人浙江猫精人工智能科技有限公司地址311121浙江省杭州市余杭区仓前街道余杭塘路2699号2幢801室(72)发明人张光琰张文杰石强盖于涛姜飞俊(74)专利代理机构北京合智同创知识产权代理有限公司11545专利代理师李杰张美洁(51)Int.Cl.G10L13/08(2013.01)G10L13/04(2013.01)G10L13/033(2013.01)G10L25/63(2013.01)权利要求书3页说明书12页附图8页(54)发明名称语音合成、情绪迁移、交互方法、存储介质、程序产品(57)摘要本申请提供了一种语音合成、情绪迁移方法、存储介质、程序产品,语音生成方法,包括:根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到待合成语音文本对应的音素级别的韵律信息;将音素级别的韵律信息上采样至语音帧级别,得到待合成语音文本对应的语音帧特征;将目标说话人的音色特征融入语音帧特征,并根据融入音色特征后的语音帧特征,生成与待合成语音文本对应的、并且以目标情绪表达的目标说话人语音。本方案先根据和音色无关的音素序列以及情绪生成韵律信息,再将音色融入韵律信息,可以将音色和韵律进行解耦,保证了语音帧特征中的音色仅包括目标说话人的音色,并可以通过语音的韵律准确表达目标情绪,提高了合成的语音的质量。CN114882868ACN114882868A权利要求书1/3页1.一种语音生成方法,包括:根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息,其中,所述目标情绪包括目标情绪标签,或者包括目标情绪标签及目标情绪强度;将所述音素级别的韵律信息上采样至语音帧级别,得到所述待合成语音文本对应的语音帧特征;将目标说话人的音色特征融入所述语音帧特征,并根据融入音色特征后的语音帧特征,生成与所述待合成语音文本对应的、并且以所述目标情绪表达的目标说话人语音。2.根据权利要求1所述的方法,其中,所述目标说话人的音色特征通过下述步骤得到:获得所述目标说话人的样本语音;通过音色编码器对所述样本语音进行音色特征提取,得到所述目标说话人的候选音色特征;对所述样本语音进行音素级别的韵律信息提取,得到样本韵律信息;将所述样本韵律信息上采样至语音帧级别,得到所述样本语音对应的语音帧特征;将所述目标说话人的候选音色特征融入所述样本语音对应的语音帧特征,并根据融入音色特征后的语音帧特征,生成得到样本语音对应的预测语音;根据所述样本语音和预测语音之间的差异,调整所述目标说话人的候选音色特征。3.根据权利要求2所述的方法,其中,所述音色编码器还包括:说话人特征提取模块和瓶颈层,所述目标说话人的音色特征还通过下述步骤得到:通过所述说话人特征提取模块对所述目标说话人的样本语音进行特征提取,得到所述目标说话人的特征向量;通过所述瓶颈层,过滤所述目标说话人的特征向量,得到所述目标说话人的音色特征。4.根据权利要求1所述的方法,其中,所述根据目标情绪以及待合成语音文本对应的音素序列进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息,包括:确定所述目标情绪对应的情绪特征向量;通过音素编码器,对所述待合成语音文本对应的音素序列中的各个音素进行编码,得到音素向量序列;通过韵律预测器,根据所述情绪特征向量,对所述音素向量序列中的各个音素向量进行韵律生成,得到所述待合成语音文本对应的音素级别的韵律信息;其中,所述音素编码器和所述韵律预测器通过下述方法训练:将样本语音输入至情绪分类器,通过所述情绪分类器对所述样本语音进行情绪分类,并输出所述样本语音对应的样本情绪标签,根据所述样本情绪标签得到对应的样本情绪特征向量;将所述样本语音对应的音素序列输入至所述音素编码器,通过所述音素编码器对所述样本语音对应的音素序列中的各个音素进行编码,得到样本音素向量序列;通过所述韵律预测器,根据所述样本情绪特征向量,对所述样本音素向量序列中的各个样本音素向量进行韵律预测,得到音素级别的预测韵律信息;对所述样本语音进行韵律信息提取得到音素级别的样本韵律信息;根据所述预测韵律信息和所述样本韵律信息之间的差异,调整所述情绪分类器、所述2CN114882868A权利要求书2/3页音素编码器和所述韵律预测器。5.根据权利要求4所述的方法,其中,所述将样本语音输入至情绪分类器,通过所述情绪分类器对所述样本语音进行情绪分类,并输出所述样本语音对应的样本情绪标签,根据所述样本情绪标签得到对应的样本情绪特征向量,包括:将样本语音