沉浸式视频交互方法、装置、设备和存储介质-豆柴文库

沉浸式视频交互方法、装置、设备和存储介质.pdf

2023-07-24

10金币

785KB

18页

是你****盟主

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113965802A(43)申请公布日2022.01.21(21)申请号202111231637.8(22)申请日2021.10.22(71)申请人深圳市兆驰股份有限公司地址518000广东省深圳市龙岗区南湾街道下李朗社区兆驰创新产业园3号楼(72)发明人高上超潘云龙张海波何胜斌(74)专利代理机构深圳紫藤知识产权代理有限公司44570代理人熊明(51)Int.Cl.H04N21/439(2011.01)H04N21/44(2011.01)H04N21/442(2011.01)权利要求书2页说明书12页附图3页(54)发明名称沉浸式视频交互方法、装置、设备和存储介质(57)摘要本申请提供一种沉浸式视频交互方法、装置、设备和计算机可读存储介质，本申请中的沉浸式视频交互方法包括：获取观影用户的脸部特征和声纹特征；识别当前视频数据中的视频角色，根据观影用户的脸部特征捕捉视频角色中与观影用户相对应的目标角色；根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据；基于替换图像数据和/或合成声音数据对当前视频数据进行音像合成，得到合成沉浸视频，播放合成沉浸视频。本申请中的沉浸式视频交互方法能够使得用户在观看视听内容时能够达到深度沉浸观影的效果，优化视频播放时的交互方式。CN113965802ACN113965802A权利要求书1/2页1.一种沉浸式视频交互方法，其特征在于，所述沉浸式视频交互方法包括：获取观影用户的脸部特征和声纹特征；识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色；根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据；基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频。2.如权利要求1所述的沉浸式视频交互方法，其特征在于，所述获取观影用户的脸部特征和声纹特征之前，还包括：采集所述观影用户的图像数据，对所述图像数据进行图像分割，得到所述观影用户的脸部视图；解析所述脸部视图，得到所述观影用户的脸部特征，将所述脸部特征存储到预设的脸部特征数据库。3.如权利要求1所述的沉浸式视频交互方法，其特征在于，所述获取观影用户的脸部特征和声纹特征之前，还包括：采集所述观影用户的语音数据，对所述语音数据进行语音质量检测，提取所述语音数据中的有效人声音频；对所述有效人声音频进行声纹识别，得到所述声纹特征；将所述声纹特征与所述观影用户相关联，并存储到预设的声纹特征数据库。4.如权利要求1所述的沉浸式视频交互方法，其特征在于，所述识别当前视频数据中的视频角色，根据所述观影用户的脸部特征捕捉所述视频角色中与所述观影用户相对应的目标角色，包括：获取当前视频数据，对所述当前视频数据进行人脸识别，识别所述当前视频数据中的视频角色；接收目标角色选择指令，捕捉所述视频角色中与所述脸部特征相匹配视频角色，确定所述视频角色为待替换的目标角色；提取所述当前视频数据中携带的所述目标角色的目标图像数据和/或目标语音数据。5.如权利要求4所述的沉浸式视频交互方法，其特征在于，所述根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据之前，还包括：对所述目标图像数据进行图像分割，获取所述目标角色的目标脸部视图；将所述目标脸部视图和所述脸部特征输入到预设的人像合成模型进行图像合成，得到替换图像数据。6.如权利要求5所述的沉浸式视频交互方法，其特征在于，所述根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据之前，还包括：解码所述目标语音数据，获取所述目标语音数据携带的目标文本信息和目标韵律；将所述目标文本信息和所述目标韵律输入到预设的人声合成模型与所述声纹特征进2CN113965802A权利要求书2/2页行语音合成，得到合成声音数据。7.如权利要求6所述的沉浸式视频交互方法，其特征在于，所述基于所述替换图像数据和/或所述合成声音数据对所述当前视频数据进行音像合成，得到合成沉浸视频，播放所述合成沉浸视频，包括：确定所述当前视频数据中所述目标图像数据的时间戳和所述目标语音数据的时间戳；根据所述目标图像数据的时间戳和所述目标语音数据的时间戳将所述替换图像数据和所述合成声音数据合成到所述当前视频数据，得到合成沉浸视

相关资料

沉浸式视频交互方法、装置、设备和存储介质.pdf

本申请提供一种沉浸式视频交互方法、装置、设备和计算机可读存储介质，本申请中的沉浸式视频交互方法包括：获取观影用户的脸部特征和声纹特征；识别当前视频数据中的视频角色，根据观影用户的脸部特征捕捉视频角色中与观影用户相对应的目标角色；根据所述脸部特征对所述目标角色的目标图像数据进行替换，得到替换图像数据，和/或根据所述声纹特征对所述目标角色的目标声音数据进行合成，得到合成声音数据；基于替换图像数据和/或合成声音数据对当前视频数据进行音像合成，得到合成沉浸视频，播放合成沉浸视频。本申请中的沉浸式视频交互方法能够使

2023-07-24

785KB

一种交互式视频投影方法、装置、设备及存储介质.pdf

本申请实施例公开了一种交互式视频投影方法、装置、设备及存储介质。本申请实施例提供的技术方案通过根据摄像头拍摄的视频帧确定相机在虚拟场景中的初始位置姿态，并基于该初始位置姿态对三维地图进行渲染，获得与初始位置姿态下的摄像头拍摄的范围对应的二维画面，然后对二维画面和摄像头拍摄的视频帧进行特征匹配，匹配完成后确定三维地图中与视频帧上的二维特征点对应的三维特征点，通过位姿求解算法可确定相机位姿矩阵、焦距信息和/或畸变参数，根据以上信息设置虚拟场景中的相机，并将视频帧加入渲染管线中进行视频投影，从而实现半自动交互式

2024-01-06

852KB

交互视频的展示和生成方法、装置、设备及存储介质.pdf

本发明实施例公开了一种交互视频的展示和生成方法、装置、设备及存储介质，该交互视频的展示方法，应用于客户端，包括：当检测到用户交互指令时，生成视频获取请求，其中，视频获取请求中包括目标物品的物品信息和用户交互指令；向服务端发送视频获取请求，接收服务端生成的目标物品的交互视频；在设定区域展示交互视频；其中，交互视频的视频帧画面中包括虚拟助手，交互视频是由服务端根据所述虚拟助手的声音数据和模型数据生成的，所述声音数据和模型数据是由服务端根据所述物品信息和用户交互指令生成的。本发明实施例的技术方案，通过云端根据用

2023-06-14

1.1MB

语音交互方法、装置、设备和存储介质.pdf

本公开提供了一种语音交互方法、装置、设备和存储介质，涉及人工智能技术领域，尤其涉及语音技术领域。具体实现方案为：获取语音信息；根据语音信息，确定音频特征；根据音频特征，确定目标服务模式；根据目标服务模式关联的资源集合，确定目标资源，以供输出。根据本公开的技术，通过服务模式对目标资源的确定范围加以限定，避免了其他服务模式下的内容资源的输出给语音信息发起方带来的不适。同时，减少了用户操作，提高了语音交互过程的操作便捷度。

2023-07-24

889KB

语音交互方法、装置、设备和存储介质.pdf

本发明提供一种语音交互方法、装置、设备和存储介质。该方法包括：接收用户的第一语音指令；根据所述第一语音指令，进行搜索得到至少两个兴趣点POI，并提取至少两个所述POI的区分特征；根据所述区分特征，向用户输出引导语音，以引导用户进行下一轮语音交互。本发明实施例的方法交互效率较高，用户操作简便。

2023-08-29

548KB