预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113965802A(43)申请公布日2022.01.21(21)申请号202111231637.8(22)申请日2021.10.22(71)申请人深圳市兆驰股份有限公司地址518000广东省深圳市龙岗区南湾街道下李朗社区兆驰创新产业园3号楼(72)发明人高上超潘云龙张海波何胜斌(74)专利代理机构深圳紫藤知识产权代理有限公司44570代理人熊明(51)Int.Cl.H04N21/439(2011.01)H04N21/44(2011.01)H04N21/442(2011.01)权利要求书2页说明书12页附图3页(54)发明名称沉浸式视频交互方法、装置、设备和存储介质(57)摘要本申请提供一种沉浸式视频交互方法、装置、设备和计算机可读存储介质,本申请中的沉浸式视频交互方法包括:获取观影用户的脸部特征和声纹特征;识别当前视频数据中的视频角色,根据观影用户的脸部特征捕捉视频角色中与观影用户相对应的目标角色;根据所述脸部特征对所述目标角色的目标图像数据进行替换,得到替换图像数据,和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成,得到合成声音数据;基于替换图像数据和/或合成声音数据对当前视频数据进行音像合成,得到合成沉浸视频,播放合成沉浸视频。本申请中的沉浸式视频交互方法能够使得用户在观看视听内容时能够达到深度沉浸观影的效果,优化视频播放时的交互方式。CN113965802ACN113965802A权利要求书1/2页1.一种沉浸式视频交互方法,其特征在于,所述沉浸式视频交互方法包括:获取观影用户的脸部特征和声纹特征;识别当前视频数据中的视频角色,根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色;根据所述脸部特征对所述目标角色的目标图像数据进行替换,得到替换图像数据,和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成,得到合成声音数据;基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成,得到合成沉浸视频,播放所述合成沉浸视频。2.如权利要求1所述的沉浸式视频交互方法,其特征在于,所述获取观影用户的脸部特征和声纹特征之前,还包括:采集所述观影用户的图像数据,对所述图像数据进行图像分割,得到所述观影用户的脸部视图;解析所述脸部视图,得到所述观影用户的脸部特征,将所述脸部特征存储到预设的脸部特征数据库。3.如权利要求1所述的沉浸式视频交互方法,其特征在于,所述获取观影用户的脸部特征和声纹特征之前,还包括:采集所述观影用户的语音数据,对所述语音数据进行语音质量检测,提取所述语音数据中的有效人声音频;对所述有效人声音频进行声纹识别,得到所述声纹特征;将所述声纹特征与所述观影用户相关联,并存储到预设的声纹特征数据库。4.如权利要求1所述的沉浸式视频交互方法,其特征在于,所述识别当前视频数据中的视频角色,根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色,包括:获取当前视频数据,对所述当前视频数据进行人脸识别,识别所述当前视频数据中的视频角色;接收目标角色选择指令,捕捉所述视频角色中与所述脸部特征相匹配视频角色,确定所述视频角色为待替换的目标角色;提取所述当前视频数据中携带的所述目标角色的目标图像数据和/或目标语音数据。5.如权利要求4所述的沉浸式视频交互方法,其特征在于,所述根据所述脸部特征对所述目标角色的目标图像数据进行替换,得到替换图像数据,和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成,得到合成声音数据之前,还包括:对所述目标图像数据进行图像分割,获取所述目标角色的目标脸部视图;将所述目标脸部视图和所述脸部特征输入到预设的人像合成模型进行图像合成,得到替换图像数据。6.如权利要求5所述的沉浸式视频交互方法,其特征在于,所述根据所述脸部特征对所述目标角色的目标图像数据进行替换,得到替换图像数据,和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成,得到合成声音数据之前,还包括:解码所述目标语音数据,获取所述目标语音数据携带的目标文本信息和目标韵律;将所述目标文本信息和所述目标韵律输入到预设的人声合成模型与所述声纹特征进2CN113965802A权利要求书2/2页行语音合成,得到合成声音数据。7.如权利要求6所述的沉浸式视频交互方法,其特征在于,所述基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成,得到合成沉浸视频,播放所述合成沉浸视频,包括:确定所述当前视频数据中所述目标图像数据的时间戳和所述目标语音数据的时间戳;根据所述目标图像数据的时间戳和所述目标语音数据的时间戳将所述替换图像数据和所述合成声音数据合成到所述当前视频数据,得到合成沉浸视