预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113657400A(43)申请公布日2021.11.16(21)申请号202110952433.7(22)申请日2021.08.19(71)申请人大连理工大学地址116024辽宁省大连市凌工路2号(72)发明人刘宇陈鹏单世民李新宇徐凯平(74)专利代理机构辽宁鸿文知识产权代理有限公司21102代理人杨植(51)Int.Cl.G06K9/34(2006.01)G06K9/46(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书4页附图1页(54)发明名称基于跨模态文本检索注意力机制的文本指导图像分割方法(57)摘要一种基于跨模态文本检索注意力机制的文本指导图像分割方法,该方法将文本作为查询向量,多模态特征作为检索空间,自适应关注多模态特征空间中与文本相似区域,定位目标物体。该方法包括:特征提取、图文信息深度融合、深层次关系捕捉和多层级特征混合。采用卷积网络和长短时记忆网络提取视觉、语言特征;使用哈达玛积将视觉、语言特征信息深度融合;采用基于文本查询的注意力机制获取图片场景中与文本描述相似区域,最后将多个层级的特征混合分割目标物体。该方法能够在复杂场景下有效提高定位目标的准确度,实现区域的精确分割。CN113657400ACN113657400A权利要求书1/1页1.一种基于跨模态文本检索注意力机制的文本指导图像分割方法,其特征在于,步骤如下:(1)特征提取:对输入自然语言文本和RGB图片进行特征提取;对于自然语言文本,使用one‑hot方法将每个单词表示为向量,将该向量嵌入成低维向量后输入LSTM长短时记忆网络,将最终隐藏态作为整个自然语言文本的文本表示向量Fl;对于RGB图片,采用ResNet‑1O1卷积神经网络的Res3,Res4,Res5层提取图片特征作为视觉特征在三层特征图使用相同处理步骤,视觉特征统称为Fv;其中卷积神经网络采用DeepLab语义分割模型预训练参数作为初始参数;之后将每个视觉特征向量的位置坐标嵌入视觉特征Fv中,具体过程如下:对于长宽为w,h的视觉特征图,其中w=h=40;以视觉特征图的中心位置作为坐标原点(0,0),特征图左上角位置坐标记为(‑1,‑1),右下角位置坐标记为(+1,+1),特征图中第i行j列的像素空间位置坐标为最后将视觉特征Fv与文本表示向量Fl级联后映射至500维的文本图像多模态特征空间M;(2)图文信息深度融合:将步骤(1)中生成的文本表示向量Fl与多模态特征空间M中的每个位置做哈达玛乘积实现对二者多模态信息的建模,实现文本与图像信息深度融合至统一的多模态混合特征空间M′;(3)深层次关系捕捉:将步骤(1)中生成的文本表示向量Fl作为注意力机制的查询向量,步骤(2)生成的多模态混合特征空间M′作为检索区域,使用基于文本的跨模态注意力机制查询多模态混合特征空间中与文本相似区域,生成具有定位目标物体的特征图R;(4)多层级特征混合:步骤(1)中采用的ResNet101视觉编码器能够得到三个来自Res3,Res4,Res5层级的视觉特征Fv;在获取方法预测的最终结果需要将三个层级的特征进行混合;使用R(i)表示步骤(3)生成的第i层的混合信息特征图i∈{3,4,5};由于R(i)属于不同层深层次关系捕捉模块输出的特征图,具有着不同的通道维度;首先使用1×1卷积将所有不同层的混合特征图通道压缩成相同维度数,将映射后的输出结果记为X(i);之后对于第i个层级,使用一个记忆门单元m(i)和重置门单元联合控制最终结果的生成,记忆门单元m(i)和重置门单元r(i)的作用类似于长短时记忆网络中的门控单元,控制着对应层中特征对于最终结果的贡献度,贡献度权重比例越高,意味着对应层语义信息提供的越多,所处特征层越重要;此外还包含一个上下文控制器C(i),用来表示其他层流至第i层特征的信息;门控多层级混合能够有效融合来自不同层级的特征语义信息,通过学习训练的手段自动生成最佳权重比例,使模型结果更加准确,提高模型的分割细节精度。2CN113657400A说明书1/4页基于跨模态文本检索注意力机制的文本指导图像分割方法技术领域[0001]本发明属于计算机视觉与自然语言处理的交叉技术领域,涉及一种基于跨模态文本检索注意力机制的文本指导图像分割方法。背景技术[0002]文本指导图像分割任务的目标是根据给定的自然语言定位和分割出文本所描述的物体或区域。它不仅可以识别固定类别,同时能够理解表达丰富多变的自然语言。相比于普通的图像分割任务,该任务能够建立起人类与计算机直接快速沟通的桥梁,在实际应用中更加符合直观需求,可方便应用在人机交互、图片编辑等日常生活