一种基于智能语音交互的多模态拒识方法和系统.pdf
小凌****甜蜜
亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
一种基于智能语音交互的多模态拒识方法和系统.pdf
本发明涉及人机语音交互技术领域,提供一种基于智能语音交互的多模态拒识方法和系统,提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入,根据预设融合算法完成异构数据信息的融合,得到融合特征向量代入预设评分规则,获取直观且全面的目标拒识概率,根据目标拒识概率即可直接判断是否执行拒识操作;通过融合多种模态的信息(语音、文本、视频),扩大了语音拒识的信息输入范围,多种模态的信息相互补充、相互增强,从而大大提升拒识的准确度,进而大大提升语音
基于语音的智能视觉交互方法及系统.pdf
本发明公开了基于语音的智能视觉交互方法及系统。本发明中,系统用到的人机对话模块基于开发接口,设计了语音识别模块、语音合成模块及人机对话模块,最后对目标检测跟踪模块进行了设计,并使用目标跟踪运动策略使机器人能达到实时跟随的目的,从而提高了该智能视觉交互系统在使用时的跟随性,可以跟随着使用者实时进行目标跟踪检测,提高了该系统打准确性与智能型,同时通过训练暗光、遮挡情况下目标数据集及对除行人之外的其它物体检测框的去除,使目标检测模块能更好地服务于使用者。最后基于相关技术,对人机交互系统进行了实现,从而使得该系统
基于语音和手势识别的多模态非触摸人机交互方法及系统.pdf
本发明公开了一种基于语音和手势识别的多模态非触摸人机交互方法及系统,在基本的语音识别、手势识别的基础上,通过定义语音和手势的联合语义表示,基于语音识别和手势识别进行语义理解、融合以及多通道信息冲突处理,基于领域先验知识和对话上下文信息优化语音识别和手势识别的语义空间搜索空间,最终基于多轮次交互对用户意图进行理解,提供非常便利、自然的人机交互方式,具有可靠性高、交互成功率高和资源消耗低的优点。
基于深度学习的多模态图像语音解读方法和系统.pdf
本发明公开了一种基于深度学习的多模态图像语音解读方法和系统,该方法包括搭建图像描述神经网络并训练得到图像描述神经网络模型;搭建语音转换神经网络并训练得到语音转换神经网络模型;获取待语音解读的图像,经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。本发明用于实现对无文字图片内容的理解并用语音的方式对图片中存在的对象及多个对象之间的关系、行为进行解读。有助于视觉障碍者对身边环境的实时了解,有助于该类人群的日常生活。同时,上述方案可以应用于幼儿教育,在小孩学习身边事物的
一种智能语音交互系统及方法.pdf
本发明公开了一种智能语音交互系统与方法,系统包含预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块,中控模块内置有,调度策略流程模块、自动外呼模块、语言处理模块的中控调度模块;方法包含步骤1‑步骤12;本发明能够实现多种算法整合调度,根据设定规则调度多种算法模型计算并综合计算结果得出最优解,以解决单一算法模型的盲点计算的局限性,达到互补的效果;对于多问题多意图等复杂回答的处理,中控调度模块将在文本在送至问题计算模型前,进行初步预处理,通过多意图拆分计算模型,将具有多