预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114970517A(43)申请公布日2022.08.30(21)申请号202111557670.XG06V10/764(2022.01)(22)申请日2021.12.20G06V10/82(2022.01)(71)申请人昆明理工大学地址650500云南省昆明市呈贡区景明南路727号(72)发明人吴松泽颜洪刘利军(74)专利代理机构昆明隆合知识产权代理事务所(普通合伙)53220专利代理师何娇(51)Int.Cl.G06F40/289(2020.01)G06F40/30(2020.01)G06K9/62(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书7页附图3页(54)发明名称一种基于多模态交互的上下文感知的面向视觉问答的方法(57)摘要本发明涉及一种基于多模态交互的上下文感知的面向视觉问答的方法,属于计算机视觉语言跨模态领域。本发明包括步骤:首先通过预训练的目标检测模型提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU获得问题词向量,再根据上下文编码机制分别获得视觉与问题的全局上下文内容信息向量,然后利用融合上下文信息的注意力机制得到更新后的视觉特征与问题特征,最后融合视觉特征与问题特征获得融合特征,输入到分类层预测最终的答案分布。该方法有效增强模态内与模态间的信息交互,提高视觉问答的推理能力,其准确度比传统的视觉问答方法提高了约5%。CN114970517ACN114970517A权利要求书1/2页1.一种基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述方法的具体步骤如下:Step1、使用预训练的目标检测模型从自然图像中提取图像视觉区域特征,同时使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量;Step2、经Step1处理操作之后,根据上下文编码机制分别对图像特征和问题向量进行编码,获得视觉与问题的全局上下文内容信息向量;Step3、经Step2处理操作之后,然后利用融合上下文信息的注意力机制更新视觉特征与问题特征;Step4、经Step3处理操作之后,融合视觉特征与问题特征获得融合特征,输入到分类层进行最终的答案分布预测。2.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述步骤Step1的具体步骤如下:Step1.1、首先从QVA数据网站获得包涵图片问题对以及答案的数据集合;Step1.2、利用目标检测模型从自然图像中提取图像视觉区域特征,使用预训练的词嵌入语言模型与GRU从所提出的问题中获得问题词向量,具体包括:采用预训练的目标检测模型提取k个视觉区域特征V={V1,V2,...,VK},其中每个视觉2048区域特征Vi∈R编码图像中的一个显著区域;对于每个问题,采用空格进行分词且修剪为最大长度为14个单词;然后使用预训练词嵌入语言模型GloVe将问题中的每个单词转换为300词嵌入W={W1,W2,...,Wl},其中Wi∈R表示问题中第i个单词的词嵌入;接着,将W输入到dq单层GRU中获得句子层级问题词向量Q={q1,q2,...,ql},其中Wi∈R表示问题中第i个词向量,dq为词向量的维度。3.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述步骤Step2的具体步骤如下:Step2.1、首先采用简单的自注意力机制为每个模态生成k组注意力权重;式中,Wv,bv,Wq,bq为模型的参数,表示按列softmax操作,矩阵中的每个元素Aij∈A表示视觉区域特征和问题词特征的重要性,Q为句子层级问题词向量,V为视觉区域特征;Step2.2、随后,将注意力权重应用于视觉区域特征和问题词向量,分别获得视觉与问题的全局上下文内容信息向量:其中⊙表示哈达玛积;k个上下文内容信息向量中的每一个(即或的每一行)都是输入单个模态中特征的线性组合,从全局角度总结每种模态某些方面上的语义信息。4.根据权利要求1所述基于多模态交互的上下文感知的面向视觉问答的方法,其特征在于:所述步骤Step3的具体步骤如下:Step3.1、首先学习一个门控标量控制全局上下文信息与单模态内每个元素之间的信息量:λ=σ(WRR+WCC);式中,WR,WC模型的参数,R和C分别单模态内特征向量与上下文内容信息向量,σ(·)表示sigmoid函数;门控标量使模型能够明确量化每个特征和上下文信息向量对联合注意力机制计算注意力权重的贡献;随后,通过以下公式融合内容信息:2CN114970517A权利要求书2/2页Step3.2、通过考虑单模态内的每个元素,并融合单模态内多方面的上下文信息,对复杂的多模态交互进行建模;首先通过多视角自注意力机制生成