预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110377710A(43)申请公布日2019.10.25(21)申请号201910520138.7(22)申请日2019.06.17(71)申请人杭州电子科技大学地址310018浙江省杭州市下沙高教园区2号大街(72)发明人颜成钢俞灵慧孙垚棋张继勇张勇东(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240代理人朱月芬(51)Int.Cl.G06F16/332(2019.01)G06K9/62(2006.01)权利要求书2页说明书5页附图2页(54)发明名称一种基于多模态融合的视觉问答融合增强方法(57)摘要本发明公开了一种基于多模态融合的视觉问答融合增强方法。本发明步骤如下:1、利用GRU结构构建时序模型,获得问题的特征表示学习、利用从FasterR-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示;2、基于注意力模型Transformer进行多模态推理,引入注意力模型对图片-问题-答案这个三元组进行多模态融合,建立推理关系;3、针对不同的隐含关系有不同的推理过程和结果输出,再根据这些结果输出来进行标签分布回归学习,来确定答案。本发明基于特定的图片和问题得到答案直接应用于服务于盲人的应用中,能够帮助盲人或者视觉障碍者更好地感知周围环境,也应用于图片检索系统,提高图片检索的准确性和多样性。CN110377710ACN110377710A权利要求书1/2页1.一种基于多模态融合的视觉问答融合增强方法,其特征在于包括以下步骤:步骤1、利用GRU结构构建时序模型,获得问题的特征表示学习、利用从FasterR-CNN抽取的基于自底向上的注意力模型的输出作为图像的特征表示,具体将句子中的每个单词都按照顺序时刻依次输入到GRU模型中,句子的最后一个单词的GRU输出表示整个句子;步骤2、基于注意力模型Transformer进行多模态推理,同时引入注意力模型对图片-问题-答案这个三元组进行多模态融合,从而建立推理关系;步骤3、由于多种不同的图像-问句-答案隐含关系被涵盖,且针对不同的隐含关系有不同的推理过程和结果输出,利用标签分布学习和KL散度损失函数和softmax回归方法来拟合真实答案分布情况。2.根据权利要求1所述的一种基于多模态融合的视觉问答融合增强方法,其特征在于所述的GRU中有两个门,一个是重置门rt,另一个是更新门zt,令句子q={x1,x2,…,xn},其中xi代表了第i个单词,重置门和更新门的公式如下所示:rrrt=σ(Wxt+Uht-1)zzzt=σ(Wxt+Uht-1)然后计算候选隐含层ht':ht'=tanh(Wxt+rtUht-1)ht'表示的是输入第t个单词之后得到的更新后的信息,rt则能控制保留多少前t个单词的相关记忆,如果rt=0,那么ht'就只有包含当前词xt的信息;更新门控制需要从前t-1个单词中遗忘的信息,输入第t个单词之后,能够得到前t个词中的所有过滤好的信息:问句s的特征表示为vq=hn{x1,x2,…,xn}。3.根据权利要求2所述的一种基于多模态融合的视觉问答融合增强方法,其特征在于步骤2所述的注意力机制,其attention的定义如下:其中,Q,K,V分别是query、key、value的简写,K,V是一一对应的,它们就像是key-value的关系,那么上式的意思就是通过Q这个query,通过与K内积,并softmax的方式,来得到Q与各个V的相似度,然后加权求和,得到一个向量;其中因子起到调节作用;Multi-HeadAttention是Google提出的新概念,是Attention机制的完善:MultiHead(Q,K,V)=Concat(head1,…headh)将Q,K,V通过参数矩阵映射,然后再做Attention,将该过程重复做h次,并将结果拼接起来就行了;将答案信息通过嵌入式表达之后,引入视觉问答任务;问题-图片对经过transformer模块生成的向量与answerembedding又进行了一次融合,最后得到了带有答案信息的特征2CN110377710A权利要求书2/2页和只有图片-问题信息的特征,这两部分进行结合之后,能够得到整个视觉任务的信息特征,再将这些信息送入带有线性变换和softmax模块的分类系统,从而最后需要的答案。4.根据权利要求3所述的一种基于多模态融合的视觉问答融合增强方法,其特征在于步骤3具体实现如下:在像视觉问答常用的数据集VQA和VQA-2.0中,每一对图像-问题都是由很多人使用多个答案进行标注的;每个图像-问题样本的答案可以被表示为一个与该样本对应的答案的概率分布向量其中yi∈[0,1]表示候选答案中第i个问题在该样本的人工标注的答案中出现的频率;