预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111581470A(43)申请公布日2020.08.25(21)申请号202010415082.1(22)申请日2020.05.15(71)申请人上海乐言信息科技有限公司地址200050上海市长宁区长宁路1033号联通大厦16楼/18楼/19楼(72)发明人王钦龙沈李斌赵迎功李波吴海华(74)专利代理机构上海专利商标事务所有限公司31100代理人施浩(51)Int.Cl.G06F16/906(2019.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书7页附图2页(54)发明名称用于对话系统情景匹配的多模态融合学习分析方法和系统(57)摘要本发明公开了一种用于对话系统情景匹配的多模态融合学习分析方法和系统,能够提高场景匹配率,提升用户体验,更加智能理解用户需求。其技术方案为:本发明处理和理解多源模态信息,分别对图像信息、音频信息和文本信息进行特征抽取得到各自特征的向量化表达,再将这些向量化表达通过注意力机制对不同模态的动态权重进行学习调整,同时对场景定义也进行特征抽取以得到其向量化表达,再将注意力机制加权后的输出向量和场景定义特征抽取后的输出向量,通过全连接层将这两个向量进行进一步的映射以进行转换,实现最终的分类决策动作。CN111581470ACN111581470A权利要求书1/2页1.一种用于对话系统情景匹配的多模态融合学习分析方法,其特征在于,方法包括:步骤1:对图像信息进行向量化的特征抽取,得到能够表达图像特征的向量;步骤2:对音频信息进行向量化的特征抽取,得到能够表达音频特征的向量;步骤3:对文本信息进行向量化的特征抽取,以建立文本信息的稠密向量化表达;步骤4:对场景定义进行向量化的特征抽取,得到表达场景特征的向量;步骤5:接收步骤1至3的输出,通过注意力机制对图像、音频、文本的不同模态的动态权重学习调整,合并为更高维度组合抽象的加权后的特征向量供后续决策使用;步骤6:接收步骤4输出的加权后的特征向量和步骤5输出的场景定义特征抽取后的向量,在卷积神经网络模型的全连接层将该两个向量进行映射转化,以使该两个向量放置到同一个向量空间中;步骤7:接收步骤6的输出,基于同一个向量空间中的该两个向量,在卷积神经网络模型的softmax层实现分类决策动作。2.根据权利要求1所述的用于对话系统情景匹配的多模态融合学习分析方法,其特征在于,步骤1中对图像信息进行向量化的特征抽取是通过CNN卷积神经网络实现,以不同的感受野获得图像不同层次的抽象特征,作为图像的向量化表达。3.根据权利要求1所述的用于对话系统情景匹配的多模态融合学习分析方法,其特征在于,步骤2中对音频信息进行向量化的特征抽取是以MFCC梅尔频率倒谱系数作为特征抽取器来实现的,获得的13维系数作为音频的向量化表达。4.根据权利要求1所述的用于对话系统情景匹配的多模态融合学习分析方法,其特征在于,步骤3中对文本信息所进行向量化的特征抽取是通过12层的transformer-based的文本特征抽取器实现。5.根据权利要求1所述的用于对话系统情景匹配的多模态融合学习分析方法,其特征在于,步骤4中的场景抽取的特征向量和步骤3的文本抽取的特征向量映射到同一个高维度向量空间中。6.一种用于对话系统情景匹配的多模态融合学习分析系统,其特征在于,系统包括:图像特征抽取模块,对图像信息进行向量化的特征抽取,得到能够表达图像特征的向量;音频特征抽取模块,对音频信息进行向量化的特征抽取,得到能够表达音频特征的向量;文本特征抽取模块,对文本信息进行向量化的特征抽取,以建立文本信息的稠密向量化表达;场景特征抽取模块,对场景定义进行向量化的特征抽取,得到表达场景特征的向量;模态加权模块,分别连接图像特征抽取模块、音频特征抽取模块、文本特征抽取模块,通过注意力机制对图像、音频、文本的不同模态的动态权重学习调整,合并为更高维度组合抽象的加权后的特征向量供后续决策使用;映射转化模块,连接模态加权模块和场景特征抽取模块,在卷积神经网络模型的全连接层将加权后的特征向量和场景定义特征抽取的向量进行映射转化,以使该两个向量放置到同一个向量空间中;分类决策模块,连接映射转化模块,基于同一个向量空间中的该两个向量,在卷积神经2CN111581470A权利要求书2/2页网络模型的softmax层实现分类决策动作。7.根据权利要求6所述的用于对话系统情景匹配的多模态融合学习分析系统,其特征在于,图像特征抽取模块中对图像信息进行向量化的特征抽取是通过CNN卷积神经网络实现,以不同的感受野获得图像不同层次的抽象特征,作为图像的向量化表达。8.根据权利要求6所述的用于对