3D数字人唇形驱动方法、装置、电子设备及存储介质-豆柴文库

3D数字人唇形驱动方法、装置、电子设备及存储介质.pdf

2024-01-06

10金币

1.7MB

17页

猫巷****晓容

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115965722A(43)申请公布日2023.04.14(21)申请号202211649613.9(22)申请日2022.12.21(71)申请人中国电信股份有限公司地址100033北京市西城区金融大街31号(72)发明人王志昊郭知智何智翔(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师李建忠(51)Int.Cl.G06T13/40(2011.01)G06T13/20(2011.01)权利要求书2页说明书10页附图4页(54)发明名称3D数字人唇形驱动方法、装置、电子设备及存储介质(57)摘要本公开提供了一种3D数字人唇形驱动方法、装置、电子设备及存储介质，涉及计算机视觉技术领域。其中，方法包括：获取输入的文本信息；基于从文本到语音TTS技术，将文本信息转化为音素序列、音频数据和时间戳信息；根据时间戳信息，对音素序列中相应的静音音素进行删除处理，对删除处理后的音素序列进行预设倍数采样，得到bs动画系数序列；根据bs动画系数序列、音频数据、预设音素唇形映射表以及特殊音素的预设优化，渲染生成3D数字人的唇形动画。本公开提高了3D数字人唇形驱动的鲁棒性与流畅度。CN115965722ACN115965722A权利要求书1/2页1.一种3D数字人唇形驱动方法，其特征在于，包括：获取输入的文本信息；基于从文本到语音TTS技术，将所述文本信息转化为音素序列、音频数据和时间戳信息，其中，所述时间戳信息包含所述音素序列中各个元素的时间戳；根据所述时间戳信息，对所述音素序列中相应的静音音素进行删除处理，对删除处理后的音素序列进行预设倍数采样，得到bs动画系数序列；根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化，渲染生成3D数字人的唇形动画，其中，所述预设音素唇形映射表包含多种音素与3D数字人唇形之间的映射关系，所述特殊音素包括双唇音、唇齿音和齿擦音。2.根据权利要求1所述的3D数字人唇形驱动方法，其特征在于，通过以下步骤构建所述预设音素唇形映射表，包括：获取所有单音素；依次将各个单音素映射到一个完整的唇形动画中，得到所述预设音素唇形映射表。3.根据权利要求1所述的3D数字人唇形驱动方法，其特征在于，在根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化，渲染生成3D数字人的唇形动画之前，所述方法还包括：对所述bs动画系数序列进行三次样条差值采样。4.根据权利要求1的3D数字人唇形驱动方法，其特征在于，所述双唇音包含b、p和m中的至少一个；所述唇齿音包含f和v中的至少一个；所述齿擦音包含z、c、s、j、q、x、zh、ch和sh中的至少一个。5.根据权利要求4的3D数字人唇形驱动方法，其特征在于，通过以下步骤配置特殊音素的预设优化，包括：设置所述3D数字人在双唇音发音前，所述3D数字人的上嘴唇与下嘴唇接触；设置所述3D数字人在唇齿音发音前，所述3D数字人的下嘴唇触碰上牙齿；设置所述3D数字人在齿擦音发音时，所述3D数字人的上下牙齿之间的距离满足预设距离。6.根据权利要求1所述的3D数字人唇形驱动方法，其特征在于，在根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化，渲染生成3D数字人的唇形动画之前，所述方法还包括：对所述bs动画系数序列进行衰减，得到衰减后的bs动画系数序列。7.根据权利要求1所述的3D数字人唇形驱动方法，其特征在于，在根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化，渲染生成3D数字人的唇形动画之前，所述方法还包括：对所述bs动画系数序列进行平滑处理。8.根据权利要求1所述的3D数字人唇形驱动方法，其特征在于，在根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化，渲染生成3D数字人的唇形动画之前，所述方法还包括：在所述bs动画系数序列的预设位置添加静音音素，并对添加静音音素后的bs动画系数2CN115965722A权利要求书2/2页序列进行平滑处理，其中，所述预设位置为所述bs动画系数序列的第一个元素前面和最后一个元素后面。9.一种3D数字人唇形驱动装置，其特征在于，包括：文本信息获取模块，用于获取输入的文本信息；TTS模块，用于基于TTS技术，将所述文本信息转化为音素序列、音频数据和时间戳信息，其中，所述时间戳信息包含所述音素序列中各个元素的时间戳；音素前处理模块，用于根据所述时间戳信息，对所述音素序列中相应的静音音素进行删除处理，对删除处理后的音素序列进行预设倍数采样，得到bs动画系数序列；唇形后处理模块，用于根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化，

相关资料

3D数字人唇形驱动方法、装置、电子设备及存储介质.pdf

本公开提供了一种3D数字人唇形驱动方法、装置、电子设备及存储介质，涉及计算机视觉技术领域。其中，方法包括：获取输入的文本信息；基于从文本到语音TTS技术，将文本信息转化为音素序列、音频数据和时间戳信息；根据时间戳信息，对音素序列中相应的静音音素进行删除处理，对删除处理后的音素序列进行预设倍数采样，得到bs动画系数序列；根据bs动画系数序列、音频数据、预设音素唇形映射表以及特殊音素的预设优化，渲染生成3D数字人的唇形动画。本公开提高了3D数字人唇形驱动的鲁棒性与流畅度。

2024-01-06

1.7MB

驱动数字人的方法、装置、电子设备和存储介质.pdf

本公开提供了驱动数字人的方法、装置、电子设备和存储介质,本公开涉及人工智能技术领域,尤其数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。具体实现方案为:从目标文件中读取至少一条数据记录;每条数据记录中包括中之人的面部动作数据和/或肢体动作数据;基于至少一条数据记录驱动至少一个目标数字人。本公开通过录制好的目标文件驱动数字人,将录制和驱动分开进行,可以解决数字人的驱动受中之人的工作时间影响较大的问题。

2023-04-20

1.1MB

虚拟形象唇形驱动方法、装置、介质及电子设备.pdf

本公开涉及一种虚拟形象唇形驱动方法、装置、介质及电子设备。方法包括：确定目标文本对应的目标IPA序列和该序列中各音标的发音时长；根据每一发音时长，对目标IPA序列进行时长扩展，得到扩展序列；针对扩展序列中的每一音标，从扩展序列中提取包含该音标的N‑gram音标串，得到目标音标序列；根据参考音标序列与唇形参数的对应关系，确定与目标音标序列相匹配的唇形参数；基于该音标对应的唇形参数，对目标虚拟形象进行唇形渲染。在获取扩展序列中的每一目标音标对应的唇形参数时，同时考虑目标音标本身和其上下文信息，可使得不同IPA

2024-01-04

3.2MB

数字人驱动方法、装置、设备及存储介质.pdf

本申请实施例提供了数字人驱动方法、装置、设备及存储介质，涉及到基于标记语言配置的数字人标准标记协议，所述方法包括：通过解析引擎接收针对数字人的驱动数据包，并解析驱动数据包得到驱动信息；其中，所接收的驱动数据包为基于所配置的数字人标准标记协议的数据包，用于控制数字人在预设时刻执行预设事件；通过解析引擎调用渲染引擎，并在所调用的渲染引擎中根据驱动信息驱动预先渲染的数字人。基于数字人标准标记协议对数字人的制作进行规范进而统一数字人的渲染驱动，使得数字人的渲染与驱动不存在相关服务场景的逻辑，对数字人的渲染驱动方面

2024-01-06

831KB

数字人驱动方法、装置、设备及存储介质.pdf

本公开涉及一种数字人驱动方法、装置、设备及存储介质。本公开通过驱动数字人的控制指令，从运动匹配模块和运动控制模块中确定出执行该控制指令的目标模块。由于运动匹配模块可以根据控制指令，从多个预设动画片段中确定出与控制指令匹配的目标动画片段。运动控制模块可以将控制指令、数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过机器学习模型生成用于驱动数字人的骨骼运动信息。因此，本实施例可以在两种确定骨骼运动信息的方式之间自由的切换，使得不同场景下的控制指令可以通过不同的方式生成驱动数字人的骨

2023-07-21

729KB