基于智能语音的沉浸式VR影像系统交互方法-豆柴文库

基于智能语音的沉浸式VR影像系统交互方法.pdf

2023-07-24

10金币

414KB

7页

子璇****君淑

实名认证

内容提供者

1/7

2/7

3/7

4/7

5/7

6/7

7/7

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113986069A(43)申请公布日2022.01.28(21)申请号202111318947.3(22)申请日2021.11.09(71)申请人天津大学地址300350天津市津南区雅观路135号(72)发明人高晓瑾韩冬(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人曹玉平(51)Int.Cl.G06F3/04815(2022.01)G10L13/08(2013.01)G10L15/18(2013.01)G10L15/22(2006.01)G10L15/26(2006.01)权利要求书1页说明书3页附图2页(54)发明名称基于智能语音的沉浸式VR影像系统交互方法(57)摘要本发明提供了基于智能语音的沉浸式VR影像系统交互方法，从而推动交互式剧情发展的VR体验系统。利用沉浸式虚拟现实技术展现故事性的影像不仅可以强化表达内容，还具有良好参与性的体验特征。目前，普遍存在用户交互过程的输入效率低、沉浸感受到干扰、以及需要借助额外设备和需要一定的学习过程等问题，然而将智能语音技术作为交互手段，其特点可以为解决这些问题提供有益的探索。用户需要利用自然语音完成相应任务从而触发故事情节。目的是通过语音交互能够降低用户使用该系统的难度，同时提高用户在VR影像中交互的有效性和沉浸感。此外，还解决了在UE4引擎内实现语音捕获、将捕获的音频进行格式转化、与在线语音服务进行通讯、实现语义识别以及语音合成的音频数据在UE4引擎中载入等实现语音交互的技术难点问CN113986069A题。CN113986069A权利要求书1/1页1.基于智能语音的沉浸式VR影像系统交互方法，其特征是，包括以下步骤：步骤S1：在UE4内使用录音组件AudioCapture获取用户录音并保存为wav文件，文件名使用固定名称与当前的系统时间拼接，以方便node服务器选取最新的音频文件。保存后UE4主程序向该中转服务器发送简单HTTP请求。中转服务器接收到请求后开始向在线语音服务接口发起请求。且由于服务仅支持识别pcm格式的音频文件，所以在向服务接口发送音频文件前，还需通过ffmpeg工具将文件转换为指定格式。中转服务器将基于接口密钥APIKey、APISecret经过hmac‑sha256加密算法加密计算后的鉴权字段authorization、本地时间戳date、请求主机地址host与该音频文件一同通过websoeckt连接发送到在线语音服务接口。接受连接的最终识别结果，则将该结果json化，并通过上级路由传入的res对象的send方法发送回UE4主程序。完成语音识别。步骤S2：在语音识别结果的处理方面，出于对于系统未来拓展性的考量，采用了与语音识别相同的，将关键字识别的逻辑放在中间服务器中进行实现。具体实现为在上一步语音输入识别完成后，将识别的文字结果直接传给服务器内部的处理模块。在模块内部保存一个预设好的关键词和关键语句对照表，如下图,并同时在UE4客户端内会维护一个储存当前互动进度的变量，每当其与中间服务器进行通讯时，会将该变量一并传输给服务器端。服务器内部的处理模块会结合该进度变量以及语音识别的文字结果和关键词、关键语句对照表进行比对，确认用户该次语音互动的结果，并将该结果通过网络请求返回给客户端。以此完成语义识别。步骤S3：系统中选择使用离线的方式完成实现。具体实现为通过node.js脚本，脚本接收作为代合成的文字。保存后，在模块内引入crypto‑js模块，通过该模块内的hmac‑sha256加密算法将科大讯飞语音识别服务个人中心中所显示的APIKey、APISecret与当前主机，当前时间戳组合作加密操作，将加密结果保存为鉴权key。后引入ws模块，将上述鉴权key与本地host与服务的ws接口地址拼接，生成最终的访问地址。通过ws模块访问改地址，与服务器建立连接，准备进行通讯。在完成通讯建立后，将待合成的文字，音频编码，音频采样率，发音人名称，语速，音量，音高，文本编码格式一并作为请求参数，通过ws连接发送至科大讯飞语音合成服务器。为ws对象添加onMessage方法，监听服务端发出的通讯。在监听的回调函数内，将音频文件保存为特定的文件名，放在UE4客户端项目中。以供后续调用。以此方式完成语音合成。2CN113986069A说明书1/3页基于智能语音的沉浸式VR影像系统交互方法技术领域[0001]本发明属于虚拟现实影像领域，通过引导进行有效的语音交互实现推动虚拟影像的剧情发展，实现用户与影像的互动。背景技术[0002]虚拟现实(VirtualReality,简称VR)技术通过整合视觉、听觉、触觉等方面的数字信息来生成一体化的虚拟环境，具有沉浸性、交互性、多感知性的特

相关资料

基于智能语音的沉浸式VR影像系统交互方法.pdf

本发明提供了基于智能语音的沉浸式VR影像系统交互方法，从而推动交互式剧情发展的VR体验系统。利用沉浸式虚拟现实技术展现故事性的影像不仅可以强化表达内容，还具有良好参与性的体验特征。目前，普遍存在用户交互过程的输入效率低、沉浸感受到干扰、以及需要借助额外设备和需要一定的学习过程等问题，然而将智能语音技术作为交互手段，其特点可以为解决这些问题提供有益的探索。用户需要利用自然语音完成相应任务从而触发故事情节。目的是通过语音交互能够降低用户使用该系统的难度，同时提高用户在VR影像中交互的有效性和沉浸感。此外，还解

2023-07-24

414KB

基于语音的智能视觉交互方法及系统.pdf

本发明公开了基于语音的智能视觉交互方法及系统。本发明中，系统用到的人机对话模块基于开发接口，设计了语音识别模块、语音合成模块及人机对话模块，最后对目标检测跟踪模块进行了设计，并使用目标跟踪运动策略使机器人能达到实时跟随的目的，从而提高了该智能视觉交互系统在使用时的跟随性，可以跟随着使用者实时进行目标跟踪检测，提高了该系统打准确性与智能型，同时通过训练暗光、遮挡情况下目标数据集及对除行人之外的其它物体检测框的去除，使目标检测模块能更好地服务于使用者。最后基于相关技术，对人机交互系统进行了实现，从而使得该系统

2023-07-21

534KB

沉浸式交互Box影像制作方法.pdf

本发明涉及交互影像处理技术领域，具体公开了一种沉浸式可交互Box影视制作方法，包括拍摄多组球形全景影像，将球形全景影像转换为全景序列帧导出，规则命名全景序列帧，将全景序列帧以图像序列形式贴图保存为材质球，建立一个立方体模型，细分至项目需求状态，给予球形映射的三维纹理坐标，建立六个摄像机，建立六组模拟平行光，设置六个摄像机的属性，渲染六个摄像机镜头，得到六组序列帧，将六组序列帧合成六个影像，规则命名所得的六个影像，实现主、附计算机同步播放六个影像，实现主机交互选择播放功能、附机同步主机选择功能。本发明可以使

2024-01-06

559KB

沉浸式智能交互展示装置及方法.pdf

本发明涉及一种沉浸式智能交互展示装置及方法,该方案包括主机、声光设备、显示屏、眼动仪、体感摄像模块、操作道具及姿态传感穿戴设备;主机用于控制其余各设备;显示屏与主机通信连接,主机或显示屏上设有语音交互模块;眼动仪与主机通信连接并与显示屏同时朝向用户设置;体感摄像模块与主机通信连接并朝向用户设置;每个所述操作道具上设有多个姿态传感器;姿态传感穿戴设备为绑带式或粘贴式结构,分别固定于人体头部、躯干及四肢上;声光设备至少包括RGB灯组和音响设备,RGB灯组设于天花板、地面及显示屏四周边框处,音响设备至少为5.1

2023-05-24

568KB

VR沉浸式体验系统.pdf

本实用新型公开一种VR沉浸式体验系统和灯具,其中,VR沉浸式体验系统包括:VR设备,供体验者佩戴;行走板,所述行走板包括相对设置的安装板面和行走板面,所述行走板面供体验者行走,所述行走板面具有相互连接的多个安全区域和危险区域,所述危险区域上排布有压力传感器;风机,所述风机设置在所述行走板的周侧,所述风机的出风方向朝向所述行走板的正上方;主控电路,所述主控电路与所述VR设备、压力传感器以及风机电连接。本实用新型技术方案有利于为用户提供大风天气的模拟环境。

2023-06-06

456KB