预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114494541A(43)申请公布日2022.05.13(21)申请号202210056508.8(22)申请日2022.01.18(71)申请人阿里巴巴(中国)有限公司地址310051浙江省杭州市滨江区长河街道网商路699号4号楼5楼508室(72)发明人陈卓学黄齐李禹田树东(74)专利代理机构北京润泽恒知识产权代理有限公司11319专利代理师赵娟(51)Int.Cl.G06T13/40(2011.01)G06T15/00(2011.01)G06T19/20(2011.01)权利要求书2页说明书16页附图2页(54)发明名称数字人驱动方法、装置、设备及存储介质(57)摘要本申请实施例提供了数字人驱动方法、装置、设备及存储介质,涉及到基于标记语言配置的数字人标准标记协议,所述方法包括:通过解析引擎接收针对数字人的驱动数据包,并解析驱动数据包得到驱动信息;其中,所接收的驱动数据包为基于所配置的数字人标准标记协议的数据包,用于控制数字人在预设时刻执行预设事件;通过解析引擎调用渲染引擎,并在所调用的渲染引擎中根据驱动信息驱动预先渲染的数字人。基于数字人标准标记协议对数字人的制作进行规范进而统一数字人的渲染驱动,使得数字人的渲染与驱动不存在相关服务场景的逻辑,对数字人的渲染驱动方面进行复用,且不受渲染驱动引擎的升级或者变更的影响。CN114494541ACN114494541A权利要求书1/2页1.一种数字人驱动方法,其特征在于,涉及到基于标记语言配置的数字人标准标记协议,应用于与所配置的数字人标准标记协议适配的解析引擎,所述解析引擎支持不同的渲染引擎,所述方法包括:通过所述解析引擎接收针对数字人的驱动数据包,并解析所述驱动数据包得到驱动信息;其中,所接收的驱动数据包为基于所配置的数字人标准标记协议的数据包,用于控制数字人在预设时刻执行预设事件;通过所述解析引擎调用渲染引擎,并在所调用的渲染引擎中根据所述驱动信息驱动预先渲染的数字人。2.根据权利要求1所述的方法,其特征在于,在接收针对数字人的驱动数据包之前,还包括:接收用户系统发送的针对数字人的构建信息;所述构建信息包括适用于预设场景的数字人信息、数字人装扮信息、数字人声音信息和数字人动作信息;通过所述解析引擎基于所述构建信息生成与预设场景适配的数字人,以便对所构建的数字人进行预先渲染。3.根据权利要求2所述的方法,其特征在于,在基于所述构建信息生成与预设场景适配的数字人之后,还包括:基于所述适用于预设场景的数字人信息从所整合的渲染引擎中确定与预设场景对应的渲染引擎;通过所述解析引擎调用所述渲染引擎,并通过所调用的渲染引擎预先对所构建的数字人以及预设场景进行渲染,以便驱动预先渲染后预设场景中的数字人。4.根据权利要求2所述的方法,其特征在于,所述通过所述解析引擎接收针对数字人的驱动数据包,包括:通过所述解析引擎接收用户系统发送的针对数字人的驱动数据包;所述针对数字人的驱动数据包为由所述用户系统将基于所述构建信息确定的数字人需要展示的内容信息转换为数字人标准标记协议的数据包;其中,在转换后的驱动数据包中采用用于表示预设事件的元素,以及所述预设事件的元素具有的用于表示预设时刻的起始位置属性配置数字人需要展示的内容信息,所述数字人需要展示的内容信息包括在预设时刻的数字人需要执行的说话事件、动作事件与表情事件,以及在预设场景中在预设时刻的卡片插入事件。5.根据权利要求1或4所述的方法,其特征在于,所述解析所述驱动数据包得到驱动信息,包括:通过所述解析引擎对所述驱动数据包中用于表示预设事件的元素,以及所述预设事件的元素具有的用于表示预设时刻的起始位置属性,进行实时解析得到所述数字人的驱动信息;所述驱动信息包括在预设时刻的说话文本信息、动作文本信息、卡片文本信息以及表情文本信息。6.根据权利要求1所述的方法,其特征在于,所述驱动信息包括在预设时刻的说话文本信息、动作文本信息以及表情文本信息,所述在所调用的渲染引擎中根据所述驱动信息驱动预先渲染的数字人,包括:通过所述解析引擎将所述说话文本信息实时转化为流式的语音数据,并在流式语音转化过程中基于所述说话文本信息、动作信息以及表情信息生成所述数字人在预设时刻的嘴2CN114494541A权利要求书2/2页型数据、表情数据与动作数据;通过所述解析引擎将所生成的在预设时刻的语音数据、嘴型数据、表情数据与动作数据实时发送给所调用的渲染引擎;通过所述渲染引擎获取预先渲染的数字人,并基于在预设时刻的语音数据、嘴型数据、表情数据与动作数据驱动所述预先渲染的数字人进行播放,以将所播放的数字人推送至用户系统。7.根据权利要求6所述的方法,其特征在于,所述驱动信息还包括在预设时刻的卡片文本信息,所述在所