预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115033727A(43)申请公布日2022.09.09(21)申请号202210504329.6G06N3/08(2006.01)(22)申请日2022.05.10(71)申请人中国科学技术大学地址230026安徽省合肥市金寨路96号(72)发明人毛震东张勇东张铧天张坤(74)专利代理机构合肥天明专利事务所(普通合伙)34115专利代理师谢中用(51)Int.Cl.G06F16/583(2019.01)G06F16/532(2019.01)G06F16/383(2019.01)G06F16/33(2019.01)G06F16/332(2019.01)G06N3/04(2006.01)权利要求书2页说明书7页附图1页(54)发明名称基于跨模态置信度感知的图像文本匹配方法(57)摘要本发明涉及跨模态检索领域,公开了一种基于跨模态置信度感知的图像文本匹配方法,以待匹配文本为桥梁,参考图像‑文本的全局语义,来衡量图像区域在待匹配文本中被描述的可信程度。并且,本发明在聚合区域‑单词匹配对的局部对齐信息以得到图文整体相关性时,根据匹配置信度来过滤掉与全局图像‑文本语义不一致的局部区域‑单词匹配对,更准确地度量的图文相关性,提升跨模态检索性能。CN115033727ACN115033727A权利要求书1/2页1.一种基于跨模态置信度感知的图像文本匹配方法,包括以下步骤:步骤一:抽取图像I上N个区域vi的特征表示和文本T中M个单词ui的特征表示,计算图像的全局表征vglo和文本T的全局表征uglo;步骤二:通过规范化距离向量表示图像上各区域vi与语义相关文本的区域局部语义相似度文本T中各单词ui与语义相关区域的单词局部语义相似度以及图像I和文本T的全局语义相似度sglo;步骤三:以区域vi的周边区域作为视觉上下文对区域vi进行扩展,通过视觉上下文计算区域vi在文本T中被描述的程度其中为可学习参数矩阵;glo步骤四:以文本为桥梁,通过全局语义相似度s和视觉上下文计算区域vi对应的匹配置信度ci:c=σ(LayerNorm([∈1,E2,…,∈i,...,∈N]));其中c=[c1,c2,...ci,...,cN],为可学习参数向量,⊙指示元素对应相乘操作,σ表示sigmoid函数,LayerNorm表示层规范化操作;步骤五:通过匹配置信度ci对相应区域局部语义相似度进行缩放,得到全局语义相似gloglo度s和各被缩放后的区域局部语义相似度构成的集合Sv,全局语义相似度s与单词局部语义相似度构成集合Su;步骤六:分别在集合Sv和Su上应用多层自注意力推理,拼接最后一层注意力推理层中视觉增强的全局语义相似度和语言增强的全局语义相似度得到拼接向量,将拼接向量输入到由sigmoid函数激活的全连接层来计算图像I和文本T之间的跨模态相关性r(I,T):其中为可学习参数向量。2.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤glo一中抽取图像I上的区域vi的特征表示以及计算图像的全局表征v的方法如下:采用以ResNet‑101为骨干网络的FasterR‑CNN目标检测器来抽取图像上N个显著区域的特征xi,然后将xi线性映射为共同嵌入空间中的视觉向量作为区域vi的特征,图像I的全glo局表征v通过以区域平均值vave为查询键的注意力机制来编码:其中注意力权重wi是vave和vi的相似度。3.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤glo一中抽取文本T中的单词ui的特征表示以及计算文本T的全局表征u的方法如下:将M个单词的one‑hot编码{d1,d2,…,dM}由可学习单词映射层ti=Wedi转换为分布式表2CN115033727A权利要求书2/2页征,使用Bi‑GRU来编码单词的前向信息和后向信息采用作为被上下文增强的单词ui的表征;其中We为单词映射层的线性变换参数矩阵;glo文本T的全局表征u通过以单词平均值Nave为查询键的注意力机制来编码:其中注意力权重wi是uave和ui的相似度。4.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤三中以区域vi的周边区域作为视觉上下文对区域vi进行扩展的方法如下:将区域vi的周边划分为上、下、左、右四个视域,从每个视域中提取距离区域vi最近的3个区域并收集区域的索引号构成集合idxi,区域vi的视觉上下文其中wi为注意力权重。5.根据权利要求1所述基于跨模态置信度感知的图像文本匹配方法,其特征在于,步骤二中规范化距离向量表示图像上各区域vi与语义相关文本的区域局部语义相似度文本T中各单词ui与语义相关区域的单词局部语义相似度以及图像I和文本T的全局语义相似度