预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115761075A(43)申请公布日2023.03.07(21)申请号202211458174.3(22)申请日2022.11.21(71)申请人百果园技术(新加坡)有限公司地址新加坡巴西班让路枫树商业城30号楼15层31A(72)发明人陶洪李玉乐项伟(74)专利代理机构广州利能知识产权代理事务所(普通合伙)44673专利代理师王增鑫(51)Int.Cl.G06T13/40(2011.01)G06T13/20(2011.01)G06F18/25(2023.01)G06T15/00(2011.01)G06N3/045(2023.01)权利要求书3页说明书17页附图7页(54)发明名称脸部图像生成方法及其装置、设备、介质、产品(57)摘要本申请涉及一种脸部图像生成方法及其装置、设备、介质、产品,所述方法包括:获取数字人的脸部数据模板和音频片段的音频特征信息,音频特征信息包含所述音频片段在频域获得的音频特征,脸部数据模板包含数字人的脸部区域的网格顶点数据;采用表情生成模型中的特征提取网络分别提取脸部数据模板和音频特征信息相对应的语义特征信息后融合成多模态特征信息;采用表情生成模型中的特征解码网络根据所述语义特征信息生成所述音频片段相应的脸部数据帧;根据脸部数据帧的网格顶点数据渲染数字人的三维模型获得脸部图像。本申请能根据音频片段和脸部数据模板生成所述音频片段的脸部图像,使脸部图像的表情动作和嘴型动作与音频片段的声音相同步。CN115761075ACN115761075A权利要求书1/3页1.一种脸部图像生成方法,其特征在于,包括:获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息,所述脸部数据模板包含所述数字人的脸部区域的网格顶点数据,所述音频特征信息包含所述音频片段在频域获得的音频特征;采用表情生成模型中的特征提取网络,分别提取所述脸部数据模板和所述音频特征信息相对应的语义特征信息后,融合成多模态特征信息;采用所述表情生成模型中的特征解码网络,根据所述多模态特征信息和所述脸部数据模板的语义特征信息生成与所述音频片段相同步的脸部数据帧,所述脸部数据帧包含根据所述脸部数据模板变换获得的网格顶点数据;根据所述脸部数据帧的网格顶点数据渲染所述数字人的三维模型,获得与所述音频片段相同步的脸部图像。2.根据权利要求1所述的脸部图像生成方法,其特征在于,采用表情生成模型中的特征提取网络,分别提取所述脸部数据模板和所述音频特征信息相对应的语义特征信息后,融合成多模态特征信息,包括:采用所述特征提取网络中的音频编码器,提取所述音频特征信息的语义特征信息,获得音频语义特征信息;采用所述特征提取网络中的表情编码器,在多个预设尺度提取所述脸部数据模板相对应的语义特征信息,基于最小尺度的语义特征信息提取其深层语义作为表情语义特征信息;采用所述特征提取网络中的特征融合网络,将所述音频语义特征信息与所述表情语义特征信息合成为多模态特征信息。3.根据权利要求2所述的脸部图像生成方法,其特征在于,采用所述表情生成模型中的特征解码网络,根据所述多模态特征信息和所述脸部数据模板的语义特征信息生成与所述音频片段相同步的脸部数据帧,包括:采用所述特征解码网络中的首个残差模块,对所述多模态特征信息进行等尺度卷积操作,获得相应的卷积特征信息;采用与各个所述尺度相应的与所述首个残差模块级联的多个残差模块,每个尺度的残差模块参考其对应尺度的所述脸部数据模板的语义特征信息,对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息;将最高尺度对应的残差模块获得的卷积特征信息作为所述脸部数据帧。4.根据权利要求3所述的脸部图像生成方法,其特征在于,每个尺度的残差模块参考其对应尺度的所述脸部数据模板的语义特征信息,对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息,包括:每个尺度的残差模块通过其相应尺度的多层感知器提取相应尺度获得的所述脸部数据模板的语义特征信息的感知特征信息;每个尺度的残差模块通过其相应尺度的标准化层对相应尺度获得的所述感知特征信息进行通道标准化预处理,获得相应的标准化感知特征信息;每个尺度的残差模块以其相应尺度获得的标准化感知特征信息为参考信息,对其前级的残差模块输出的卷积特征信息进行上采样后获得相应尺度的卷积特征信息。2CN115761075A权利要求书2/3页5.据权利要求1至4中任意一项所述的脸部图像生成方法,其特征在于,获取数字人的脸部数据模板和有声音频的音频片段的音频特征信息之前,包括:从训练数据集中调用任意两个时序关系不同步的音频片段的音频特征信息和数字人的脸部数据帧构成同一组两个训练样本,为每个训练样本关联任意时序的脸部数据帧作为其标签样本