预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113986069A(43)申请公布日2022.01.28(21)申请号202111318947.3(22)申请日2021.11.09(71)申请人天津大学地址300350天津市津南区雅观路135号(72)发明人高晓瑾韩冬(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人曹玉平(51)Int.Cl.G06F3/04815(2022.01)G10L13/08(2013.01)G10L15/18(2013.01)G10L15/22(2006.01)G10L15/26(2006.01)权利要求书1页说明书3页附图2页(54)发明名称基于智能语音的沉浸式VR影像系统交互方法(57)摘要本发明提供了基于智能语音的沉浸式VR影像系统交互方法,从而推动交互式剧情发展的VR体验系统。利用沉浸式虚拟现实技术展现故事性的影像不仅可以强化表达内容,还具有良好参与性的体验特征。目前,普遍存在用户交互过程的输入效率低、沉浸感受到干扰、以及需要借助额外设备和需要一定的学习过程等问题,然而将智能语音技术作为交互手段,其特点可以为解决这些问题提供有益的探索。用户需要利用自然语音完成相应任务从而触发故事情节。目的是通过语音交互能够降低用户使用该系统的难度,同时提高用户在VR影像中交互的有效性和沉浸感。此外,还解决了在UE4引擎内实现语音捕获、将捕获的音频进行格式转化、与在线语音服务进行通讯、实现语义识别以及语音合成的音频数据在UE4引擎中载入等实现语音交互的技术难点问CN113986069A题。CN113986069A权利要求书1/1页1.基于智能语音的沉浸式VR影像系统交互方法,其特征是,包括以下步骤:步骤S1:在UE4内使用录音组件AudioCapture获取用户录音并保存为wav文件,文件名使用固定名称与当前的系统时间拼接,以方便node服务器选取最新的音频文件。保存后UE4主程序向该中转服务器发送简单HTTP请求。中转服务器接收到请求后开始向在线语音服务接口发起请求。且由于服务仅支持识别pcm格式的音频文件,所以在向服务接口发送音频文件前,还需通过ffmpeg工具将文件转换为指定格式。中转服务器将基于接口密钥APIKey、APISecret经过hmac‑sha256加密算法加密计算后的鉴权字段authorization、本地时间戳date、请求主机地址host与该音频文件一同通过websoeckt连接发送到在线语音服务接口。接受连接的最终识别结果,则将该结果json化,并通过上级路由传入的res对象的send方法发送回UE4主程序。完成语音识别。步骤S2:在语音识别结果的处理方面,出于对于系统未来拓展性的考量,采用了与语音识别相同的,将关键字识别的逻辑放在中间服务器中进行实现。具体实现为在上一步语音输入识别完成后,将识别的文字结果直接传给服务器内部的处理模块。在模块内部保存一个预设好的关键词和关键语句对照表,如下图,并同时在UE4客户端内会维护一个储存当前互动进度的变量,每当其与中间服务器进行通讯时,会将该变量一并传输给服务器端。服务器内部的处理模块会结合该进度变量以及语音识别的文字结果和关键词、关键语句对照表进行比对,确认用户该次语音互动的结果,并将该结果通过网络请求返回给客户端。以此完成语义识别。步骤S3:系统中选择使用离线的方式完成实现。具体实现为通过node.js脚本,脚本接收作为代合成的文字。保存后,在模块内引入crypto‑js模块,通过该模块内的hmac‑sha256加密算法将科大讯飞语音识别服务个人中心中所显示的APIKey、APISecret与当前主机,当前时间戳组合作加密操作,将加密结果保存为鉴权key。后引入ws模块,将上述鉴权key与本地host与服务的ws接口地址拼接,生成最终的访问地址。通过ws模块访问改地址,与服务器建立连接,准备进行通讯。在完成通讯建立后,将待合成的文字,音频编码,音频采样率,发音人名称,语速,音量,音高,文本编码格式一并作为请求参数,通过ws连接发送至科大讯飞语音合成服务器。为ws对象添加onMessage方法,监听服务端发出的通讯。在监听的回调函数内,将音频文件保存为特定的文件名,放在UE4客户端项目中。以供后续调用。以此方式完成语音合成。2CN113986069A说明书1/3页基于智能语音的沉浸式VR影像系统交互方法技术领域[0001]本发明属于虚拟现实影像领域,通过引导进行有效的语音交互实现推动虚拟影像的剧情发展,实现用户与影像的互动。背景技术[0002]虚拟现实(VirtualReality,简称VR)技术通过整合视觉、听觉、触觉等方面的数字信息来生成一体化的虚拟环境,具有沉浸性、交互性、多感知性的特