预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113823300A(43)申请公布日2021.12.21(21)申请号202111098086.2(22)申请日2021.09.18(71)申请人京东方科技集团股份有限公司地址100015北京市朝阳区酒仙桥路10号(72)发明人卢运华张丽杰王炳乾宿绍勋(74)专利代理机构北京律智知识产权代理有限公司11438代理人王辉阚梓瑄(51)Int.Cl.G10L21/013(2013.01)G10L25/03(2013.01)G10L13/08(2013.01)G10L13/027(2013.01)G10L13/02(2013.01)权利要求书2页说明书14页附图6页(54)发明名称语音处理方法及装置、存储介质、电子设备(57)摘要本公开属于语音克隆技术领域,涉及一种语音处理方法及装置、存储介质、电子设备。该方法包括:对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音;提取第一语音的第一语音特征,并将第一语音特征和音频轨道中的第二语音输入音色转换模型,以将音频轨道中第二语音的音色从第二音色转换至第一音色;其中,第一音色与第一语音对应,第二音色与第二语音对应;将音色转换后的音频轨道与视频轨道合并,以得到具有被模仿者音色的目标视频。在本公开中,通过识别第二语音的音素,实现了任意第二语音的音色的转换。CN113823300ACN113823300A权利要求书1/2页1.一种语音处理方法,其特征在于,所述方法包括:对目标视频进行分离得到音频轨道和视频轨道,并采集被模仿者的第一语音;提取所述第一语音的第一语音特征,并将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道中所述第二语音的音色从第二音色转换至第一音色;其中,所述第一音色与所述第一语音对应,所述第二音色与所述第二语音对应;将音色转换后的所述音频轨道与所述视频轨道合并,以得到具有所述被模仿者音色的所述目标视频。2.根据权利要求1所述的语音处理方法,其特征在于,所述第一语音特征包括说话人特征嵌入向量;所述提取所述第一语音的第一语音特征,包括:从所述第一语音中提取所述被模仿者的所述说话人特征嵌入向量。3.根据权利要求2所述的语音处理方法,其特征在于,所述音色转换模型中还包括语音合成模型以及音素识别模型;将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型,以将所述音频轨道的第二语音的音色从第二音色转换至第一音色,包括:通过所述音色转换模型中的所述音素识别模型,提取所述音频轨道中的第二语音的第二语音特征;其中,所述第二语音特征包括音素和梅尔频谱图;将所述说话人特征嵌入向量、与所述第二语音对应的所述音素以及所述梅尔频谱图输入所述语音合成模型,以合成与第一音色对应的第一目标梅尔频谱图;将所述第一目标梅尔频谱图转换为第一语音音频信号,并将所述第二语音的原始语音音频信号替换为所述第一语音音频信号,以将所述第二语音的音色从第二音色转换至第一音色;其中,所述原始语音音频信号与所述第二音色对应。4.根据权利要求3所述的语音处理方法,其特征在于,所述将所述第二语音的音色从所述第二音色转换至第一音色之后,所述方法还包括:将所述第一语音的内容替换为所述第二语音,并将所述第二语音的内容替换为所述第一语音;将与替换后的所述第一语音对应的所述说话人特征嵌入向量、与替换后的所述第二语音对应的所述音素以及与替换后的所述第二语音对应的所述梅尔频谱图输入所述语音合成模型,合成具有第二音色的第二目标梅尔频谱图;其中,所述第二音色与替换前的所述第二语音对应;将所述第二目标梅尔频谱图转换为第二语音音频信号,并将所述第一语音音频信号替换为所述第二语音音频信号,以构建循环语音克隆模型;确定与所述循环语音克隆模型对应的目标损失函数,以根据所述目标损失函数对所述语音合成模型进行训练。5.根据权利要求4所述的语音处理方法,其特征在于,所述建立与所述循环语音克隆模型对应的目标损失函数,包括:基于提取的与所述第二语音的音色对应的所述梅尔频谱图、所述第一目标梅尔频谱图、与替换后的所述第二语音对应的所述梅尔频谱图以及所述第二目标梅尔频谱图,建立第一损失函数;基于所述第一目标梅尔频谱图以及所述第二目标梅尔频谱图,建立第二损失函数,并2CN113823300A权利要求书2/2页对所述第一损失函数以及所述第二损失函数进行计算得到目标损失函数。6.根据权利要求5所述的语音处理方法,其特征在于,所述基于所述第一目标梅尔频谱图以及所述第二目标梅尔频谱图,建立第二损失函数,包括:将所述第一目标梅尔频谱图输入判别器模型,得到第一判别结果,并将所述第二目标梅尔频谱图输入所述判别器模型,得到第二判别结果;其中,所述判别器模型用于判别输入的梅尔