虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备-豆柴文库

虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备.pdf

2023-07-24

10金币

823KB

27页

曾琪****是我

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共27页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113971828A(43)申请公布日2022.01.25(21)申请号202111261314.3(22)申请日2021.10.28(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人张展望胡天舒洪智滨徐志良(74)专利代理机构北京银龙知识产权代理有限公司11243代理人刘念(51)Int.Cl.G06V40/16(2022.01)G06V10/774(2022.01)G06V10/766(2022.01)G06V10/74(2022.01)G06K9/62(2022.01)权利要求书5页说明书18页附图3页(54)发明名称虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备(57)摘要本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备，涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为：获取语音片段和虚拟对象的目标脸部图像数据；将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作，得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据；其中，所述第一目标模型基于第一模型和第二模型训练得到，所述第一模型为针对唇形图像数据的唇音同步判别模型，所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。CN113971828ACN113971828A权利要求书1/5页1.一种虚拟对象唇形驱动方法，包括：获取语音片段和虚拟对象的目标脸部图像数据；将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作，得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据；其中，所述第一目标模型基于第一模型和第二模型训练得到，所述第一模型为针对唇形图像数据的唇音同步判别模型，所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。2.根据权利要求1所述的方法，其中，所述第一目标模型基于第一模型和第二模型训练得到，包括：基于目标唇形图像样本数据对所述第一模型进行训练得到第三模型；基于所述目标唇形图像样本数据对所述第二模型进行训练得到第四模型；基于所述第三模型和所述第四模型训练得到所述第一目标模型；其中，所述目标唇形图像样本数据的清晰度大于第一预设阈值，所述目标唇形图像样本数据中脸部相对于预设方向的偏移角度小于第二预设阈值。3.根据权利要求1所述的方法，其中，所述第一唇形驱动操作包括：分别对所述目标脸部图像数据和所述语音片段进行特征提取，得到所述目标脸部图像数据的第一特征和所述语音片段的第二特征；将所述第一特征和所述第二特征进行对齐，得到第一目标特征；基于所述第一目标特征构建所述第一唇形图像数据。4.根据权利要求3所述的方法，所述基于所述第一目标特征构建所述第一唇形图像数据之前，还包括：采用注意力机制对所述目标脸部图像数据进行图像回归，得到针对所述目标脸部图像数据中与唇形相关的区域的掩码图像；所述基于所述第一目标特征构建所述第一唇形图像数据，包括：基于所述第一目标特征生成所述虚拟对象在所述语音片段驱动下的第二唇形图像数据；将所述目标脸部图像数据、所述第二唇形图像数据和所述掩码图像进行融合，得到所述第一唇形图像数据。5.根据权利要求3所述的方法，其中，所述第一特征包括高层全局特征和底层细节特征，所述将所述第一特征和所述第二特征进行对齐，得到第一目标特征，包括：将所述高层全局特征和所述底层细节特征分别与所述第二特征进行对齐，得到第一目标特征；其中，所述第一目标特征包括对齐后的所述高层全局特征和对齐后的所述底层细节特征。6.一种模型训练方法，包括：获取第一训练样本集，所述第一训练样本集包括第一语音样本片段和虚拟对象样本的第一脸部图像样本数据；将所述第一语音样本片段和所述第一脸部图像样本数据输入至第一目标模型执行第二唇形驱动操作，得到所述虚拟对象样本在所述第一语音样本片段驱动下的第三唇形图像2CN113971828A权利要求书2/5页数据；分别基于第一模型和第二模型，对所述第三唇形图像数据和所述第一语音样本片段进行唇音同步判别，得到第一判别结果和第二判别结果；所述第一模型为针对唇形图像数据的唇音同步判别模型，所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型；基于所述第一判别结果和所述第二判别结果，确定所述第一目标模型的目标损失值；基于所述目标损失值，更新所述第一目标模型的参数。7.根据权利要求6所述的方法，所述将所述第一语音样本片段和所述第一脸部图像样本数据输入至第一目标模型执行第二唇形驱动操作，得到所述虚拟对象样本在所述第一语音样本片段驱动下的第三唇形图像数据之前，所述方法还包括：获取第二训练样本集，所述第二训练样本集包括第二语音样本片段、第一

相关资料

虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备.pdf

本公开提供了一种虚拟对象唇形驱动方法、模型训练方法、相关装置及电子设备，涉及计算机视觉、深度学习等人工智能技术领域。具体实现方案为：获取语音片段和虚拟对象的目标脸部图像数据；将所述语音片段和所述目标脸部图像数据输入至第一目标模型执行第一唇形驱动操作，得到所述虚拟对象在所述语音片段驱动下的第一唇形图像数据；其中，所述第一目标模型基于第一模型和第二模型训练得到，所述第一模型为针对唇形图像数据的唇音同步判别模型，所述第二模型为针对唇形图像数据中唇部区域的唇音同步判别模型。

2023-07-24

823KB

虚拟形象唇形驱动方法、装置、介质及电子设备.pdf

本公开涉及一种虚拟形象唇形驱动方法、装置、介质及电子设备。方法包括：确定目标文本对应的目标IPA序列和该序列中各音标的发音时长；根据每一发音时长，对目标IPA序列进行时长扩展，得到扩展序列；针对扩展序列中的每一音标，从扩展序列中提取包含该音标的N‑gram音标串，得到目标音标序列；根据参考音标序列与唇形参数的对应关系，确定与目标音标序列相匹配的唇形参数；基于该音标对应的唇形参数，对目标虚拟形象进行唇形渲染。在获取扩展序列中的每一目标音标对应的唇形参数时，同时考虑目标音标本身和其上下文信息，可使得不同IPA

2024-01-04

3.2MB

模型训练方法、对象匹配方法、装置及电子设备.pdf

本公开提供了一种模型训练方法、对象匹配方法、装置及电子设备及可读存储介质，涉及人工智能技术领域，尤其涉及机器学习技术领域。具体实现方案为：确定训练样本集合，所述训练样本集合包括多个训练样本对，各个训练样本对包括查询项样本和键值项样本，所述键值项样本包括与查询项样本相同的正例训练样本以及至少一个与所述查询项样本不同的负例训练样本；基于所述训练样本集合通过无监督训练方法训练目标匹配模型，其中，所述目标匹配模型包括第一编码网络和第二编码网络，所述第二编码网络的第二网络参数基于第一编码网络的第一网络参数通过动量更

2023-07-25

642KB

推荐对象的排序方法、模型训练方法、装置及电子设备.pdf

本申请提供一种推荐对象的排序方法、模型训练方法、装置及电子设备，该推荐对象的排序方法包括：获取目标用户的用户标识，以及目标用户对应的多个待推荐对象的对象标识；将用户标识和对象标识输入目标网络模型，得到对象标识对应的排序序号，目标网络模型用于确定为目标用户推荐待推荐对象时待推荐对象的排序序号；根据排序序号，对待推荐对象进行排序。在本申请实施例中通过目标网络模型对目标用户对应的待推荐对象进行排序，能够降低待推荐对象排序的繁琐程度，进而提高待推荐对象排序的效率。

2023-07-25

1.4MB

模型训练方法、目标对象选取方法、装置及电子设备.pdf

本申请实施例公开了一种模型训练方法、目标对象选取方法、装置、电子设备及存储介质。所述方法包括：获取训练数据，所述训练数据包括第一训练数据和第二训练数据，所述第一训练数据包括用户的用户特征、与所述用户特征对应的目标对象特征以及与所述目标对象特征对应的场景特征，所述第二训练数据包括用户的关键用户特征，所述用户特征包括所述关键用户特征；基于所述训练数据对待训练模型进行训练，直至满足训练结束条件，得到参数预测模型。通过上述方法，在对待训练模型进行训练时，关注了在新用户上覆盖度比较高的关键用户特征，使得这部分在新用

2023-07-21

1.3MB