预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115965722A(43)申请公布日2023.04.14(21)申请号202211649613.9(22)申请日2022.12.21(71)申请人中国电信股份有限公司地址100033北京市西城区金融大街31号(72)发明人王志昊郭知智何智翔(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师李建忠(51)Int.Cl.G06T13/40(2011.01)G06T13/20(2011.01)权利要求书2页说明书10页附图4页(54)发明名称3D数字人唇形驱动方法、装置、电子设备及存储介质(57)摘要本公开提供了一种3D数字人唇形驱动方法、装置、电子设备及存储介质,涉及计算机视觉技术领域。其中,方法包括:获取输入的文本信息;基于从文本到语音TTS技术,将文本信息转化为音素序列、音频数据和时间戳信息;根据时间戳信息,对音素序列中相应的静音音素进行删除处理,对删除处理后的音素序列进行预设倍数采样,得到bs动画系数序列;根据bs动画系数序列、音频数据、预设音素唇形映射表以及特殊音素的预设优化,渲染生成3D数字人的唇形动画。本公开提高了3D数字人唇形驱动的鲁棒性与流畅度。CN115965722ACN115965722A权利要求书1/2页1.一种3D数字人唇形驱动方法,其特征在于,包括:获取输入的文本信息;基于从文本到语音TTS技术,将所述文本信息转化为音素序列、音频数据和时间戳信息,其中,所述时间戳信息包含所述音素序列中各个元素的时间戳;根据所述时间戳信息,对所述音素序列中相应的静音音素进行删除处理,对删除处理后的音素序列进行预设倍数采样,得到bs动画系数序列;根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化,渲染生成3D数字人的唇形动画,其中,所述预设音素唇形映射表包含多种音素与3D数字人唇形之间的映射关系,所述特殊音素包括双唇音、唇齿音和齿擦音。2.根据权利要求1所述的3D数字人唇形驱动方法,其特征在于,通过以下步骤构建所述预设音素唇形映射表,包括:获取所有单音素;依次将各个单音素映射到一个完整的唇形动画中,得到所述预设音素唇形映射表。3.根据权利要求1所述的3D数字人唇形驱动方法,其特征在于,在根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化,渲染生成3D数字人的唇形动画之前,所述方法还包括:对所述bs动画系数序列进行三次样条差值采样。4.根据权利要求1的3D数字人唇形驱动方法,其特征在于,所述双唇音包含b、p和m中的至少一个;所述唇齿音包含f和v中的至少一个;所述齿擦音包含z、c、s、j、q、x、zh、ch和sh中的至少一个。5.根据权利要求4的3D数字人唇形驱动方法,其特征在于,通过以下步骤配置特殊音素的预设优化,包括:设置所述3D数字人在双唇音发音前,所述3D数字人的上嘴唇与下嘴唇接触;设置所述3D数字人在唇齿音发音前,所述3D数字人的下嘴唇触碰上牙齿;设置所述3D数字人在齿擦音发音时,所述3D数字人的上下牙齿之间的距离满足预设距离。6.根据权利要求1所述的3D数字人唇形驱动方法,其特征在于,在根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化,渲染生成3D数字人的唇形动画之前,所述方法还包括:对所述bs动画系数序列进行衰减,得到衰减后的bs动画系数序列。7.根据权利要求1所述的3D数字人唇形驱动方法,其特征在于,在根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化,渲染生成3D数字人的唇形动画之前,所述方法还包括:对所述bs动画系数序列进行平滑处理。8.根据权利要求1所述的3D数字人唇形驱动方法,其特征在于,在根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化,渲染生成3D数字人的唇形动画之前,所述方法还包括:在所述bs动画系数序列的预设位置添加静音音素,并对添加静音音素后的bs动画系数2CN115965722A权利要求书2/2页序列进行平滑处理,其中,所述预设位置为所述bs动画系数序列的第一个元素前面和最后一个元素后面。9.一种3D数字人唇形驱动装置,其特征在于,包括:文本信息获取模块,用于获取输入的文本信息;TTS模块,用于基于TTS技术,将所述文本信息转化为音素序列、音频数据和时间戳信息,其中,所述时间戳信息包含所述音素序列中各个元素的时间戳;音素前处理模块,用于根据所述时间戳信息,对所述音素序列中相应的静音音素进行删除处理,对删除处理后的音素序列进行预设倍数采样,得到bs动画系数序列;唇形后处理模块,用于根据所述bs动画系数序列、所述音频数据、预设音素唇形映射表以及特殊音素的预设优化,