预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113674746A(43)申请公布日2021.11.19(21)申请号202110950100.0(22)申请日2021.08.18(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人吴震王潇刘兵王佳伟魏晨闯臧启光瞿琴吴玉芳时阳革家象付晓寅(74)专利代理机构北京英赛嘉华知识产权代理有限责任公司11204代理人王达佐马晓亚(51)Int.Cl.G10L15/26(2006.01)G10L15/22(2006.01)G10L15/25(2013.01)权利要求书3页说明书8页附图4页(54)发明名称人机交互方法、装置、设备以及存储介质(57)摘要本公开提供了人机交互方法、装置、设备以及存储介质,涉及深度学习、语音等人工智能领域。具体实现方案为:获取来自用户的目标语音指令以及用户的嘴部图像序列;对目标语音指令进行分析,确定对应的文本信息以及声学信息;对嘴部图像序列进行分析,确定嘴唇状态序列;基于文本信息、声学信息以及嘴唇状态序列,确定目标语音指令是否属于人机交互指令;响应于确定目标语音指令属于人机交互指令,对目标语音指令进行响应。本实现方式能够准确地判断用户的语音指令是否属于人机交互指令,能够提升智能设备指令执行的准确度,提升用户的交互体验。CN113674746ACN113674746A权利要求书1/3页1.一种人机交互方法,包括:获取来自用户的目标语音指令以及用户的嘴部图像序列;对所述目标语音指令进行分析,确定对应的文本信息以及声学信息;对所述嘴部图像序列进行分析,确定嘴唇状态序列;基于所述文本信息、所述声学信息以及所述嘴唇状态序列,确定所述目标语音指令是否属于人机交互指令;响应于确定所述目标语音指令属于人机交互指令,对所述目标语音指令进行响应。2.根据权利要求1所述的方法,其中,所述基于所述文本信息、所述声学信息以及所述嘴唇状态序列,确定所述目标语音指令是否属于人机交互指令,包括:获取所述目标语音指令生成时刻之前预设时间段内生成的历史语音指令;根据所述历史语音指令的判断结果、所述文本信息、所述声学信息以及所述嘴唇状态序列,确定所述目标语音指令是否属于人机交互指令。3.根据权利要求1所述的方法,其中,所述基于所述文本信息、所述声学信息以及所述嘴唇状态序列,确定所述目标语音指令是否属于人机交互指令,包括:将所述文本信息、所述声学信息以及预先训练的判断模型,确定所述目标语音指令的判断结果;响应于确定所述判断结果指示所述目标语音指令属于人机交互指令,基于所述嘴唇状态序列,对所述判断结果进行核验。4.根据权利要求3所述的方法,其中,所述基于所述嘴唇状态序列,对所述判断结果进行核验,包括:响应于确定所述嘴唇状态序列表征嘴唇状态发生变化,确定所述判断结果正确。5.根据权利要求3所述的方法,其中,所述声学信息包括音节特征;以及所述基于所述嘴唇状态序列,对所述判断结果进行核验,包括:确定所述音节特征对应的参考嘴唇状态序列;根据所述嘴唇状态序列与所述参考嘴唇状态序列,对所述判断结果进行核验。6.根据权利要求1所述的方法,其中,所述基于所述文本信息、所述声学信息以及所述嘴唇状态序列,确定所述目标语音指令是否属于人机交互指令,包括:对所述文本信息进行语义解析以及意图识别,确定用户意图;确定所述文本信息属于句子的概率;确定所述文本信息对应的文本长度;确定所述声学信息对应的音节声学置信度以及整句声学置信度;所述嘴唇状态序列对应的嘴唇状态变化结果;根据所述用户意图、所述概率、所述文本长度、所述音节声学置信度、所述整句声学置信度以及所述嘴唇状态变化结果中的至少一项,确定所述目标语音指令是否属于人机交互指令。7.根据权利要求1‑6任一项所述的方法,其中,所述方法还包括:响应于确定所述目标语音指令不属于人机交互指令,忽略所述目标语音指令。8.一种人机交互装置,包括:数据获取单元,被配置成获取来自用户的目标语音指令以及用户的嘴部图像序列;2CN113674746A权利要求书2/3页指令分析单元,被配置成对所述目标语音指令进行分析,确定对应的文本信息以及声学信息;图像分析单元,被配置成对所述嘴部图像序列进行分析,确定嘴唇状态序列;指令判断单元,被配置成基于所述文本信息、所述声学信息以及所述嘴唇状态序列,确定所述目标语音指令是否属于人机交互指令;指令响应单元,被配置成响应于确定所述目标语音指令属于人机交互指令,对所述目标语音指令进行响应。9.根据权利要求8所述的装置,其中,所述指令判断单元进一步被配置成:获取所述目标语音指令生成时刻之前预设时间段内生成的历史语音指令;根据所述历史语音指令的判断结果、所述文本信息、所述声学信息以及所述嘴