预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112966135A(43)申请公布日2021.06.15(21)申请号202110160697.9(22)申请日2021.02.05(71)申请人华中科技大学地址430074湖北省武汉市洪山区珞喻路1037号(72)发明人程起敏周玉琢甘德樵邵丽媛黄海燕黄小松(74)专利代理机构华中科技大学专利中心42201代理人李智(51)Int.Cl.G06F16/53(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书8页附图2页(54)发明名称一种基于注意力机制和门控机制的图文检索方法和系统(57)摘要本发明公开了一种基于注意力机制和门控机制的图文检索方法和系统,属于跨模态检索领域。本发明通过注意力机制快速筛选出有价值的信息,以获取更加精确的特征表达,在此基础上,为了使模态之间的对应关系更加显著,通过将两种模态的数据互相作为监督信息,并引入门控机制对另一模态特征进行进一步的调整,以尽可能多地过滤掉不必要的信息,保留语义丰富的部分,最终获得具有足够通用语义和准确注意力的图像特征,从而有效地提高跨模态检索模型的性能。CN112966135ACN112966135A权利要求书1/2页1.一种基于注意力机制和门控机制的图文检索方法,其特征在于,包括:S1.构建跨模态检索模型;所述跨模态检索模型包括:图像视觉特征提取模块、文本语义特征提取模块、注意力模块和门控机制模块;图像视觉特征提取模块,用于获取遥感图像的区域特征;文本语义特征提取模块,用于获取文本所包含单词的特征;图像区域特征和文本单词特征构成不同模态的高层语义特征;注意力模块,用于将不同模态数据的高层语义特征映射到同一个公共潜在空间中,并通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,以注意力分数作为加权系数,将对应特征进行加权平均得到新的全局特征;门控机制模块,用于构造一个基于门控机制的函数组,将新的全局特征作为监督信息,对另一模态的特征进行更新和优化,加强两种不同模态特征之间的语义对齐关系;S2.以图像库和对应的语料库作为训练集,训练所述跨模态检索模型;S3.将待检索的图片或文本输入至训练好的跨模态检索模型中,得到对应的检索结果。2.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用AlexNet网络、LeNet网络、GoogLeNet网络、VGG网络、Inception网络、ResNet网络中的任意一种获取遥感图像的区域特征。3.根据权利要求2所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用InceptionV3网络获取遥感图像的区域特征。4.根据权利要求1所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用LSTM网络或GRU网络中的任意一种获取文本所包含单词的特征。5.根据权利要求4所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,利用双向GRU网络获取文本所包含单词的特征。6.根据权利要求1‑5任一项所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,所述通过注意力机制对图像区域特征或文本单词特征分配不同的注意力分数,具体为,将图像中的所有区域与文本中的所有单词分别组成区域‑单词对,用余弦相似度函数计算其相似度矩阵:其中fi表示第i个图像区域特征,tj表示第j个文本单词特征;对相似度矩阵进行归一化,得到注意力分数。7.根据权利要求1‑6任一项所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,对另一模态的特征进行更新和优化的函数组包括一个更新门和一个新记忆单元由以下公式确定:gi=sigmoid[li(W1,b1)]ci=sigmoid[li(W2,b2)]其中,是一个线性函数,用来将图像区域特征和文本单词特征进行简单的拼2CN112966135A权利要求书2/2页接,表示权重为W1,偏置为b1的线性拼接,表示权重为W2,偏置为b2的线性拼接,W1,b1,W2,b2是待学习的超参数。8.根据权利要求1‑7任一项所述的一种基于注意力机制和门控机制的图文检索方法,其特征在于,采用以下损失函数训练所述跨模态检索模型:L(Rf)和L(Rt)为权重函数,Rf表示与图像匹配的句子t在所有返回结果中的排名;Rt表示与文本语句匹配的遥感图像f在所有返回结果中的排名,和分别表示每个批量中的最难负样本对,β表示三元组损失函数的margin值。9.一种基于注意力机制和门控机制的图文检索系统,其特征在于,包括:计算机可读存储介质和处理器;所述计算机可读存储介质用于存储可执行指令;所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至8任一项