数字人驱动方法、装置、设备及存储介质-豆柴文库

数字人驱动方法、装置、设备及存储介质.pdf

2024-01-06

10金币

831KB

21页

曦晨****22

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共21页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114494541A(43)申请公布日2022.05.13(21)申请号202210056508.8(22)申请日2022.01.18(71)申请人阿里巴巴（中国）有限公司地址310051浙江省杭州市滨江区长河街道网商路699号4号楼5楼508室(72)发明人陈卓学黄齐李禹田树东(74)专利代理机构北京润泽恒知识产权代理有限公司11319专利代理师赵娟(51)Int.Cl.G06T13/40(2011.01)G06T15/00(2011.01)G06T19/20(2011.01)权利要求书2页说明书16页附图2页(54)发明名称数字人驱动方法、装置、设备及存储介质(57)摘要本申请实施例提供了数字人驱动方法、装置、设备及存储介质，涉及到基于标记语言配置的数字人标准标记协议，所述方法包括：通过解析引擎接收针对数字人的驱动数据包，并解析驱动数据包得到驱动信息；其中，所接收的驱动数据包为基于所配置的数字人标准标记协议的数据包，用于控制数字人在预设时刻执行预设事件；通过解析引擎调用渲染引擎，并在所调用的渲染引擎中根据驱动信息驱动预先渲染的数字人。基于数字人标准标记协议对数字人的制作进行规范进而统一数字人的渲染驱动，使得数字人的渲染与驱动不存在相关服务场景的逻辑，对数字人的渲染驱动方面进行复用，且不受渲染驱动引擎的升级或者变更的影响。CN114494541ACN114494541A权利要求书1/2页1.一种数字人驱动方法，其特征在于，涉及到基于标记语言配置的数字人标准标记协议，应用于与所配置的数字人标准标记协议适配的解析引擎，所述解析引擎支持不同的渲染引擎，所述方法包括：通过所述解析引擎接收针对数字人的驱动数据包，并解析所述驱动数据包得到驱动信息；其中，所接收的驱动数据包为基于所配置的数字人标准标记协议的数据包，用于控制数字人在预设时刻执行预设事件；通过所述解析引擎调用渲染引擎，并在所调用的渲染引擎中根据所述驱动信息驱动预先渲染的数字人。2.根据权利要求1所述的方法，其特征在于，在接收针对数字人的驱动数据包之前，还包括：接收用户系统发送的针对数字人的构建信息；所述构建信息包括适用于预设场景的数字人信息、数字人装扮信息、数字人声音信息和数字人动作信息；通过所述解析引擎基于所述构建信息生成与预设场景适配的数字人，以便对所构建的数字人进行预先渲染。3.根据权利要求2所述的方法，其特征在于，在基于所述构建信息生成与预设场景适配的数字人之后，还包括：基于所述适用于预设场景的数字人信息从所整合的渲染引擎中确定与预设场景对应的渲染引擎；通过所述解析引擎调用所述渲染引擎，并通过所调用的渲染引擎预先对所构建的数字人以及预设场景进行渲染，以便驱动预先渲染后预设场景中的数字人。4.根据权利要求2所述的方法，其特征在于，所述通过所述解析引擎接收针对数字人的驱动数据包，包括：通过所述解析引擎接收用户系统发送的针对数字人的驱动数据包；所述针对数字人的驱动数据包为由所述用户系统将基于所述构建信息确定的数字人需要展示的内容信息转换为数字人标准标记协议的数据包；其中，在转换后的驱动数据包中采用用于表示预设事件的元素，以及所述预设事件的元素具有的用于表示预设时刻的起始位置属性配置数字人需要展示的内容信息，所述数字人需要展示的内容信息包括在预设时刻的数字人需要执行的说话事件、动作事件与表情事件，以及在预设场景中在预设时刻的卡片插入事件。5.根据权利要求1或4所述的方法，其特征在于，所述解析所述驱动数据包得到驱动信息，包括：通过所述解析引擎对所述驱动数据包中用于表示预设事件的元素，以及所述预设事件的元素具有的用于表示预设时刻的起始位置属性，进行实时解析得到所述数字人的驱动信息；所述驱动信息包括在预设时刻的说话文本信息、动作文本信息、卡片文本信息以及表情文本信息。6.根据权利要求1所述的方法，其特征在于，所述驱动信息包括在预设时刻的说话文本信息、动作文本信息以及表情文本信息，所述在所调用的渲染引擎中根据所述驱动信息驱动预先渲染的数字人，包括：通过所述解析引擎将所述说话文本信息实时转化为流式的语音数据，并在流式语音转化过程中基于所述说话文本信息、动作信息以及表情信息生成所述数字人在预设时刻的嘴2CN114494541A权利要求书2/2页型数据、表情数据与动作数据；通过所述解析引擎将所生成的在预设时刻的语音数据、嘴型数据、表情数据与动作数据实时发送给所调用的渲染引擎；通过所述渲染引擎获取预先渲染的数字人，并基于在预设时刻的语音数据、嘴型数据、表情数据与动作数据驱动所述预先渲染的数字人进行播放，以将所播放的数字人推送至用户系统。7.根据权利要求6所述的方法，其特征在于，所述驱动信息还包括在预设时刻的卡片文本信息，所述在所

相关资料

数字人驱动方法、装置、设备及存储介质.pdf

本申请实施例提供了数字人驱动方法、装置、设备及存储介质，涉及到基于标记语言配置的数字人标准标记协议，所述方法包括：通过解析引擎接收针对数字人的驱动数据包，并解析驱动数据包得到驱动信息；其中，所接收的驱动数据包为基于所配置的数字人标准标记协议的数据包，用于控制数字人在预设时刻执行预设事件；通过解析引擎调用渲染引擎，并在所调用的渲染引擎中根据驱动信息驱动预先渲染的数字人。基于数字人标准标记协议对数字人的制作进行规范进而统一数字人的渲染驱动，使得数字人的渲染与驱动不存在相关服务场景的逻辑，对数字人的渲染驱动方面

2024-01-06

831KB

数字人驱动方法、装置、设备及存储介质.pdf

本公开涉及一种数字人驱动方法、装置、设备及存储介质。本公开通过驱动数字人的控制指令，从运动匹配模块和运动控制模块中确定出执行该控制指令的目标模块。由于运动匹配模块可以根据控制指令，从多个预设动画片段中确定出与控制指令匹配的目标动画片段。运动控制模块可以将控制指令、数字人的历史运动骨骼信息和历史运动轨迹输入到预先训练完成的机器学习模型中，通过机器学习模型生成用于驱动数字人的骨骼运动信息。因此，本实施例可以在两种确定骨骼运动信息的方式之间自由的切换，使得不同场景下的控制指令可以通过不同的方式生成驱动数字人的骨

2023-07-21

729KB

驱动数字人的方法、装置、电子设备和存储介质.pdf

本公开提供了驱动数字人的方法、装置、电子设备和存储介质,本公开涉及人工智能技术领域,尤其数字人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。具体实现方案为:从目标文件中读取至少一条数据记录;每条数据记录中包括中之人的面部动作数据和/或肢体动作数据;基于至少一条数据记录驱动至少一个目标数字人。本公开通过录制好的目标文件驱动数字人,将录制和驱动分开进行,可以解决数字人的驱动受中之人的工作时间影响较大的问题。

2023-04-20

1.1MB

3D数字人唇形驱动方法、装置、电子设备及存储介质.pdf

本公开提供了一种3D数字人唇形驱动方法、装置、电子设备及存储介质，涉及计算机视觉技术领域。其中，方法包括：获取输入的文本信息；基于从文本到语音TTS技术，将文本信息转化为音素序列、音频数据和时间戳信息；根据时间戳信息，对音素序列中相应的静音音素进行删除处理，对删除处理后的音素序列进行预设倍数采样，得到bs动画系数序列；根据bs动画系数序列、音频数据、预设音素唇形映射表以及特殊音素的预设优化，渲染生成3D数字人的唇形动画。本公开提高了3D数字人唇形驱动的鲁棒性与流畅度。

2024-01-06

1.7MB

数字人渲染方法及装置、存储介质及电子设备.pdf

本发明提供一种数字人渲染方法及装置、存储介质及电子设备，该方法包括：获取客户输入的交互数据；将交互数据发送至中控系统进行处理；获得中控系统反馈的渲染协议数据，将渲染协议数据中的应答音频数据存入第一渲染队列，将渲染协议数据中的嘴型数据存入第二渲染队列；读取第一渲染队列和第二渲染队列中的数据，基于读取到的嘴型数据在客户端的H5展示页面渲染数字人，基于读取到的应答音频数据播放音频。获取中控系统对交互数据处理生成的渲染协议数据，基于渲染协议数据中的应答音频数据和嘴型数据在H5展示页面渲染数字人和播放音频。在H5展

2024-01-06

664KB