预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112181127A(43)申请公布日2021.01.05(21)申请号201910591314.6(22)申请日2019.07.02(71)申请人上海浦东发展银行股份有限公司地址200001上海市黄浦区北京东路689号东银大厦(72)发明人李锋万化张琛胡瑛皓王震杨洋李旭佳(74)专利代理机构北京市金杜律师事务所11256代理人王茂华(51)Int.Cl.G06F3/01(2006.01)权利要求书2页说明书13页附图8页(54)发明名称用于人机交互的方法和装置(57)摘要本公开的实施例提供了用于人机交互的方法、装置和计算机可读存储介质。该方法包括:获取交互对象的输入,输入至少包括视频图像和语音输入;基于输入,确定交互对象是否通过验证;以及响应于确认交互对象通过验证,基于视频图像和语音输入,生成用于与交互对象进行交互的交互数据,交互数据至少包括语音数据和动作数据;以及渲染语音数据和动作数据,使得所输出的语音与所显示的三维虚拟人物的肢体动作和面部表情中的至少一项相关联。本公开的实施例能够准确能够综合交互对象的多模态输入,进行差异化的响应。CN112181127ACN112181127A权利要求书1/2页1.一种用于人机交互的方法,包括:获取交互对象的输入,所述输入至少包括视频图像和语音输入;基于所述输入,确定所述交互对象是否通过验证;以及响应于确认所述交互对象通过验证,基于所述视频图像和所述语音输入,生成用于与所述交互对象进行交互的交互数据,所述交互数据至少包括语音数据和动作数据;以及渲染所述语音数据和动作数据,使得所输出的语音与所显示的三维虚拟人物的肢体动作和面部表情中的至少一项相关联。2.根据权利要求1所述的方法,还包括:基于所述语音输入的语义特征、声音特征和所述交互对象的情绪特征,确定情绪数据,使得所述交互数据与所述情绪数据相关联,所述情绪特征经由对所述视频图像中的面部表情识别而确定。3.根据权利要求1所述的方法,其中所述交互数据还包括用于显示的文字、图标、图表、表单、背景、特效、交互式控件、时间、短信、二维码中的至少一项,所述输入还包括所述交互对象的触控输入、文本输入中的至少一项。4.根据权利要求2所述的方法,还包括:基于所述输入和所述情绪数据中的至少一项,确定所述交互对象的当前交互需求;以及基于与所述当前交互需求相关联的业务规则、与所述交互对象相关联的历史业务数据、交互过程中的上下文数据和用户信息中的至少一项,确定所述交互数据。5.根据权利要求4所述的方法,还包括:基于所述交互对象的多个输入,生成指示所述交互对象信息的特征,以用于确定所述交互对象的当前交互需求;基于所述交互对象的业务需求,确定对应会话树;响应于确定所述当前交互需求与所述对应会话树不相关联,确定与当前交互需求相关联的拼接会话组件;以及基于所述对应会话树和所述拼接会话组件,确定所述交互数据。6.根据权利要求1所述的方法,还包括:从所述视频图像中提取多帧图像;以及基于所述多帧图像中的至少部分,确定所述交互对象的属性信息,所述属性信息包括性别、年龄、情绪、穿戴特征、外形特征中的至少一项。7.根据权利要求6所述的方法,还包括:获取与所述交互对象相关联的历史业务数据和用户信息;以及基于所述历史业务数据、用户信息和所述属性信息中的至少一项,确定与所述交互对象相关联的标记。8.根据权利要求6所述的方法,还包括:基于所确定的与所述交互对象相关联的属性信息,在多个三维虚拟人物中确定用于显示的三维虚拟人物;以及确定与所述显示的三维虚拟人物相关联的背景图像、环境光、声音模型、对话策略中的至少一项。2CN112181127A权利要求书2/2页9.根据权利要求3所述的方法,其中生成用于与交互对象交互的交互数据包括:基于所述输入,确认所述交互对象的业务需求;将所述业务需求发送给业务系统,以获取所述业务系统针对所述业务需求的业务反馈信息;基于所述业务需求、业务反馈信息和与所述交互对象相关联的标记,确定用于交互的业务展示数据;以及基于所述业务反馈信息和所述业务展示数据中的至少一项,确定用于转换至所输出的语音的文本信息。10.根据权利要求9所述的方法,其中生成用于与交互对象交互的交互数据还包括:将所述文本信息转换为语音信息;基于所述语音信息,经由机器学习模型,生成所述口型信息,所述口型信息为用于确定所述三维虚拟人物的面部表情多维向量,所述机器学习模型包括卷积神经网络模型、长短时记忆网络中的一个;以及基于所述口型信息,驱动所显示的所述三维虚拟人物的面部表情。11.根据权利要求10所述的方法,其中确定对应的口型信息包括:对所述语音信息进行归一化处理;以及对经归一化处理的结果进行窗函数处理;以及基于短时窗进行线性特征