一种基于智能语音交互的多模态拒识方法和系统-豆柴文库

一种基于智能语音交互的多模态拒识方法和系统.pdf

2023-07-24

10金币

581KB

13页

小凌****甜蜜

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共13页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114267347A(43)申请公布日2022.04.01(21)申请号202111282240.1G10L25/18(2013.01)(22)申请日2021.11.01G10L25/24(2013.01)G10L25/30(2013.01)(71)申请人惠州市德赛西威汽车电子股份有限G10L25/45(2013.01)公司地址516006广东省惠州市仲恺高新区和畅五路西103号(72)发明人李向阳谢志华王满红(74)专利代理机构广州三环专利商标代理有限公司44202代理人叶新平(51)Int.Cl.G10L15/22(2006.01)G10L15/02(2006.01)G10L15/06(2013.01)G10L15/26(2006.01)权利要求书2页说明书7页附图3页(54)发明名称一种基于智能语音交互的多模态拒识方法和系统(57)摘要本发明涉及人机语音交互技术领域，提供一种基于智能语音交互的多模态拒识方法和系统，提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入，根据预设融合算法完成异构数据信息的融合，得到融合特征向量代入预设评分规则，获取直观且全面的目标拒识概率，根据目标拒识概率即可直接判断是否执行拒识操作；通过融合多种模态的信息(语音、文本、视频)，扩大了语音拒识的信息输入范围，多种模态的信息相互补充、相互增强，从而大大提升拒识的准确度，进而大大提升语音交互系统的可用性和用户体验。CN114267347ACN114267347A权利要求书1/2页1.一种基于智能语音交互的多模态拒识方法，其特征在于，包括步骤：S1、从语音交互中获取包含语音指令的音频信息，并采集相关的视觉信息；S2、根据预设特征提取算法处理所述音频信息，得到中间特征向量；从所述视觉信息中提取出对应的视觉特征；S3、根据所述中间特征向量，获取对应的文本指令、语音高维表征向量、语音高阶信息向量；S4、识别所述文本指令，获取的文本高维语义向量、语义高阶特征；S5、将所述语音高维表征向量、所述文本高维语义向量、所述语音高阶信息向量、所述语义高阶特征和所述视觉特征代入预设融合算法，输出融合特征向量；S6、将所述融合特征向量代入预设评分规则，计算出目标拒识概率并确定是否执行拒识操作。2.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S2包括：S21、根据预设特征提取算法对获取到的所述音频信息进行音频处理，得到目标特征向量，作为中间特征向量；S22、采用神经网络结构处理所述视觉信息，从中提取出对应的视觉特征；所述预设特征提取算法包括预加重、分帧、加窗、FFT、Mel滤波器组滤波、log变换、DCT解卷积；所述神经网络结构为P3D+LSTM网络，或ImageNet网络。3.如权利要求2所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S3包括：S31、采用语音识别模型识别所述中间特征向量，得到对应的文本指令；S32、采用CNN+LSTM网络结构对所述中间特征向量进行进一步的抽象表征提取，得到语音高维表征向量；S33、根据所述中间特征向量获取语音高阶信息向量；所述语音高阶信息向量包括音量值、信噪比、语速。4.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S4包括：S41、获取预设阶段内的历史文本指令，与当前获取到的所述文本指令拼接，得到拼接文本指令；S42、将所述拼接文本指令输入Bert预训练模型中进行特征提取，得到文本高维语义向量；S43、采用自然语言理解技术对所述文本指令进行理解、解析，得到语义高阶特征；所述语义高阶特征包括Domain得分和Intent得分。5.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S5包括：S51、采用深度神经网络融合所述语音高维表征向量和所述文本高维语义向量，得到第一融合信息向量；S52、将所述第一融合信息向量与所述语音高阶信息向量、所述语义高阶特征进行融合2CN114267347A权利要求书2/2页或拼接，得到第二融合信息向量；S53、采用深度神经网络融合所述第二融合信息向量和所述视觉特征，得到融合特征向量。6.如权利要求1所述的一种基于智能语音交互的多模态拒识方法，其特征在于，所述步骤S6包括：S61、将所述融合特征向量从高纬度映射为目标维度的目标特征向量；S62、对所述目标特征向量进行归一化处理，将输出值作为目标拒识概率；S63、判断所述目标拒识概率是否大于预设阈值，若是则确定执行拒识操作，若否则执行语音交互响应。7.一种基于智能语音交互的多模态拒识系统，其特征在于：包括依

相关资料

一种基于智能语音交互的多模态拒识方法和系统.pdf

本发明涉及人机语音交互技术领域，提供一种基于智能语音交互的多模态拒识方法和系统，提取语音交互过程中语音指令对应的音频信息、语音识别后的文本信息以及同步捕捉到的视觉信息等几种不同模态的异构信息作为多模态数据输入，根据预设融合算法完成异构数据信息的融合，得到融合特征向量代入预设评分规则，获取直观且全面的目标拒识概率，根据目标拒识概率即可直接判断是否执行拒识操作；通过融合多种模态的信息(语音、文本、视频)，扩大了语音拒识的信息输入范围，多种模态的信息相互补充、相互增强，从而大大提升拒识的准确度，进而大大提升语音

2023-07-24

581KB

基于语音和手势识别的多模态非触摸人机交互方法及系统.pdf

本发明公开了一种基于语音和手势识别的多模态非触摸人机交互方法及系统，在基本的语音识别、手势识别的基础上，通过定义语音和手势的联合语义表示，基于语音识别和手势识别进行语义理解、融合以及多通道信息冲突处理，基于领域先验知识和对话上下文信息优化语音识别和手势识别的语义空间搜索空间，最终基于多轮次交互对用户意图进行理解，提供非常便利、自然的人机交互方式，具有可靠性高、交互成功率高和资源消耗低的优点。

2023-10-12

442KB

基于语音的智能视觉交互方法及系统.pdf

本发明公开了基于语音的智能视觉交互方法及系统。本发明中，系统用到的人机对话模块基于开发接口，设计了语音识别模块、语音合成模块及人机对话模块，最后对目标检测跟踪模块进行了设计，并使用目标跟踪运动策略使机器人能达到实时跟随的目的，从而提高了该智能视觉交互系统在使用时的跟随性，可以跟随着使用者实时进行目标跟踪检测，提高了该系统打准确性与智能型，同时通过训练暗光、遮挡情况下目标数据集及对除行人之外的其它物体检测框的去除，使目标检测模块能更好地服务于使用者。最后基于相关技术，对人机交互系统进行了实现，从而使得该系统

2023-07-21

534KB

一种智能语音交互系统及方法.pdf

本发明公开了一种智能语音交互系统与方法，系统包含预处理模块、策略流程模块、中控模块、自动外呼模块、语音合成模块、语音识别模块、语言处理模块，中控模块内置有，调度策略流程模块、自动外呼模块、语言处理模块的中控调度模块；方法包含步骤1‑步骤12；本发明能够实现多种算法整合调度，根据设定规则调度多种算法模型计算并综合计算结果得出最优解，以解决单一算法模型的盲点计算的局限性，达到互补的效果；对于多问题多意图等复杂回答的处理，中控调度模块将在文本在送至问题计算模型前，进行初步预处理，通过多意图拆分计算模型，将具有多

2023-06-27

498KB

基于深度学习的多模态图像语音解读方法和系统.pdf

本发明公开了一种基于深度学习的多模态图像语音解读方法和系统，该方法包括搭建图像描述神经网络并训练得到图像描述神经网络模型；搭建语音转换神经网络并训练得到语音转换神经网络模型；获取待语音解读的图像，经图像描述神经网络模型翻译成文字序列、再经语音转换神经网络模型输出与文字序列对应的语音音频。本发明用于实现对无文字图片内容的理解并用语音的方式对图片中存在的对象及多个对象之间的关系、行为进行解读。有助于视觉障碍者对身边环境的实时了解，有助于该类人群的日常生活。同时，上述方案可以应用于幼儿教育，在小孩学习身边事物的

2023-12-02

504KB