预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113971828A(43)申请公布日2022.01.25(21)申请号202111261314.3(22)申请日2021.10.28(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人张展望胡天舒洪智滨徐志良(74)专利代理机构北京银龙知识产权代理有限公司11243代理人刘念(51)Int.Cl.G06V40/16(2022.01)G06V10/774(2022.01)G06V10/766(2022.01)G06V10/74(2022.01)G06K9/62(2022.01)权利要求书5页说明书18页附图3页(54)发明名称虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备(57)摘要本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备,涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为:获取语音片段和虚拟对象的目标脸部图像数据;将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。CN113971828ACN113971828A权利要求书1/5页1.一种虚拟对象唇形驱动方法,包括:获取语音片段和虚拟对象的目标脸部图像数据;将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作,得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据;其中,所述第一目标模型基于第一模型和第二模型训练得到,所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。2.根据权利要求1所述的方法,其中,所述第一目标模型基于第一模型和第二模型训练得到,包括:基于目标唇形图像样本数据对所述第一模型进行训练得到第三模型;基于所述目标唇形图像样本数据对所述第二模型进行训练得到第四模型;基于所述第三模型和所述第四模型训练得到所述第一目标模型;其中,所述目标唇形图像样本数据的清晰度大于第一预设阈值,所述目标唇形图像样本数据中脸部相对于预设方向的偏移角度小于第二预设阈值。3.根据权利要求1所述的方法,其中,所述第一唇形驱动操作包括:分别对所述目标脸部图像数据和所述语音片段进行特征提取,得到所述目标脸部图像数据的第一特征和所述语音片段的第二特征;将所述第一特征和所述第二特征进行对齐,得到第一目标特征;基于所述第一目标特征构建所述第一唇形图像数据。4.根据权利要求3所述的方法,所述基于所述第一目标特征构建所述第一唇形图像数据之前,还包括:采用注意力机制对所述目标脸部图像数据进行图像回归,得到针对所述目标脸部图像数据中与唇形相关的区域的掩码图像;所述基于所述第一目标特征构建所述第一唇形图像数据,包括:基于所述第一目标特征生成所述虚拟对象在所述语音片段驱动下的第二唇形图像数据;将所述目标脸部图像数据、所述第二唇形图像数据和所述掩码图像进行融合,得到所述第一唇形图像数据。5.根据权利要求3所述的方法,其中,所述第一特征包括高层全局特征和底层细节特征,所述将所述第一特征和所述第二特征进行对齐,得到第一目标特征,包括:将所述高层全局特征和所述底层细节特征分别与所述第二特征进行对齐,得到第一目标特征;其中,所述第一目标特征包括对齐后的所述高层全局特征和对齐后的所述底层细节特征。6.一种模型训练方法,包括:获取第一训练样本集,所述第一训练样本集包括第一语音样本片段和虚拟对象样本的第一脸部图像样本数据;将所述第一语音样本片段和所述第一脸部图像样本数据输入至第一目标模型执行第二唇形驱动操作,得到所述虚拟对象样本在所述第一语音样本片段驱动下的第三唇形图像2CN113971828A权利要求书2/5页数据;分别基于第一模型和第二模型,对所述第三唇形图像数据和所述第一语音样本片段进行唇音同步判别,得到第一判别结果和第二判别结果;所述第一模型为针对唇形图像数据的唇音同步判别模型,所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型;基于所述第一判别结果和所述第二判别结果,确定所述第一目标模型的目标损失值;基于所述目标损失值,更新所述第一目标模型的参数。7.根据权利要求6所述的方法,所述将所述第一语音样本片段和所述第一脸部图像样本数据输入至第一目标模型执行第二唇形驱动操作,得到所述虚拟对象样本在所述第一语音样本片段驱动下的第三唇形图像数据之前,所述方法还包括:获取第二训练样本集,所述第二训练样本集包括第二语音样本片段、第一