预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113469292A(43)申请公布日2021.10.01(21)申请号202111023647.2(22)申请日2021.09.02(71)申请人北京世纪好未来教育科技有限公司地址100089北京市海淀区中关村大街32号蓝天和盛大厦1702-03室(72)发明人郎彦高原刘霄(74)专利代理机构北京开阳星知识产权代理有限公司11710代理人祝乐芳(51)Int.Cl.G06K9/62(2006.01)G06N3/08(2006.01)G10L13/02(2013.01)权利要求书2页说明书11页附图5页(54)发明名称视频合成模型的训练方法、合成方法、装置、介质和设备(57)摘要本公开提供一种视频合成模型的训练方法、视频合成方法、装置、存储介质、程序产品和电子设备,其中方法包括:获取样本文本以及样本视频,其中样本视频是真人朗读样本文本的视频;将样本文本输入语音合成子模型,得到特征向量;将特征向量输入语音重建人脸子模型,得到人脸特征参数;将人脸特征参数和样本视频输入可微分渲染子模型,得到人脸特征图;将人脸特征图输入生成式对抗网络子模型,得到虚拟真人视频,基于虚拟真人视频和样本视频,迭代训练语音重建人脸子模型、可微分渲染子模型和生成式对抗网络子模型,直至生成式对抗网络子模型的损失函数值满足预设条件。CN113469292ACN113469292A权利要求书1/2页1.一种视频合成模型的训练方法,所述视频合成模型依次包括语音合成子模型、语音重建人脸子模型、可微分渲染子模型和生成式对抗网络子模型,所述方法包括:获取样本文本以及样本视频,其中,所述样本视频是真人朗读所述样本文本的视频;将所述样本文本输入语音合成子模型,得到特征向量;将所述特征向量输入语音重建人脸子模型,得到人脸特征参数;将所述人脸特征参数和所述样本视频输入可微分渲染子模型,得到人脸特征图;将所述人脸特征图输入生成式对抗网络子模型,得到虚拟真人视频;基于所述虚拟真人视频和所述样本视频,迭代训练所述语音重建人脸子模型、所述可微分渲染子模型和所述生成式对抗网络子模型,直至所述生成式对抗网络子模型的损失函数值满足预设条件。2.如权利要求1所述的视频合成模型的训练方法,其中,所述语音重建人脸子模型包括卷积神经网络,以及与所述卷积神经网络连接的第一全连接层和第二全连接层;并且其中,所述将所述特征向量输入语音重建人脸子模型,得到人脸特征参数,包括:将所述特征向量输入所述卷积神经网络,得到第一特征图;将所述第一特征图输入所述第一全连接层,得到第一人脸特征参数;将所述第一特征图输入所述第二全连接层,得到第二人脸特征参数,所述第二人脸特征参数与所述第一人脸特征参数不同。3.如权利要求2所述的视频合成模型的训练方法,其中,所述第一人脸特征参数包括人脸表情特征参数,所述第二人脸特征参数包括人脸姿态特征参数。4.如权利要求1~3任一项所述的视频合成模型的训练方法,其中,所述方法还包括:获取与所述样本文本对应的样本音频;并且其中,所述语音合成子模型是基于所述样本文本和所述样本音频训练得到的。5.如权利要求1~3任一项所述的视频合成模型的训练方法,其中,所述生成式对抗网络子模型中的生成器包括第一特征提取网络和/或第二特征提取网络,所述第一特征提取网络和所述第二特征提取网络的网络深度不同。6.如权利要求1~3任一项所述的视频合成模型的训练方法,其中,所述获取样本视频,包括:获取预先录制的真人朗读所述样本文本的原始视频,其中,所述原始视频包括多帧图像;对所述原始视频中的多帧图像分别进行图像分割处理,得到所述样本视频,其中,所述样本视频包括图像分割处理后的多帧图像,所述图像分割处理后的多帧图像均包括真人的人脸区域。7.如权利要求6所述的视频合成模型的训练方法,其中,所述对所述原始视频中的多帧图像分别进行图像分割处理之后,所述方法还包括:对图像分割处理后的多帧图像进行预处理,其中,所述预处理包括图像纹理处理和/或图像旋转处理;基于预处理后的多帧图像确定所述样本视频。8.一种视频合成模型的训练装置,所述视频合成模型依次包括语音合成子模型、语音重建人脸子模型、可微分渲染子模型和生成式对抗网络子模型,所述装置包括:2CN113469292A权利要求书2/2页数据获取模块,用于获取样本文本以及样本视频,其中所述样本视频是真人朗读所述样本文本的视频;语音合成模块,用于将所述样本文本输入语音合成子模型,得到特征向量;人脸重建模块,用于将所述特征向量输入语音重建人脸子模型,得到人脸特征参数;人脸渲染模块,用于将所述人脸特征参数和所述样本视频输入可微分渲染子模型,得到人脸特征图;生成训练模块,用于将所述人脸特征图输入生成式对抗网络子模型,得到虚拟