预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113887585A(43)申请公布日2022.01.04(21)申请号202111087906.8(22)申请日2021.09.16(71)申请人南京信息工程大学地址224002江苏省盐城市盐南高新区新河街道文港南路105号(72)发明人陈咪咪陈思华刘平英高昂昂(74)专利代理机构南京经纬专利商标代理有限公司32200代理人曹芸(51)Int.Cl.G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书4页附图2页(54)发明名称基于编解码网络的图像-文本多模态融合方法(57)摘要本发明涉及一种基于编解码网络的图像‑文本多模态融合方法,属于计算机视觉、自然语言处理、模式识别技术领域。该方法包括如下步骤:S1:在现有目标检测数据集的基础上对其进行手动标记生成文本信息,构建新的图像‑文本数据集,并将数据集划分为训练集、验证集和测试集;S2:选择适合的优化学习方法,设置相关超参数,将训练集和验证集通过编解码网络模型进行训练;S3:训练结束后,在测试集中任选一张图片,输入编解码网络模型,加载训练好的模型权重,最终检测出所对应的目标结果。本发明采用图像‑文本融合处理的方法,利用同一个事物的两种不同类型的数据进行融合处理,能够使网络训练时精确度更高,进而识别出相关所需让目标。CN113887585ACN113887585A权利要求书1/1页1.一种基于编解码网络的图像‑文本多模态融合方法,其特征在于,包括如下步骤:S1:在现有目标检测数据集的基础上对其进行手动标记生成文本信息,构建新的图像‑文本数据集,并将数据集按照6:2:2的比例划分为训练集、验证集和测试集;S2:选择适合的优化学习方法,设置相关超参数,将S1中所述的训练集和验证集通过编解码网络模型进行训练;S3:训练结束后,在测试集中任选一张图片,输入编解码网络模型,加载训练好的模型权重,最终检测出所对应的目标结果。2.根据权利要求1所述的基于编解码网络的图像‑文本多模态融合方法,其特征在于,步骤S2中所述编解码网路模型包括:编码器,对给定的输入图像特征矩阵的尺度进行剪裁;注意层,将编码后所获得的图像矩阵进行提取相关主要信息,减弱次要干扰信息;解码器,将注意层的特征矩阵尺寸扩大至与输入矩阵相同尺寸。3.根据权利要求2所述的基于编解码网络的图像‑文本多模态融合方法,其特征在于,所述编码器和解码器均为四个,每个编码器块包含两个卷积核为3x3的卷积层以及一个卷积核为2x2的最大池化层,每个解码器块包含两个卷积核为3x3的反卷积层和一个卷积核为2x2的最大池化层。4.根据权利要求2所述的基于编解码网络的图像‑文本多模态融合方法,其特征在于,所述注意层由空洞金字塔池化和全局平均池化层并行处理。5.根据权利要求4所述的基于编解码网络的图像‑文本多模态融合方法,其特征在于,所述空洞金字塔池化采用的是卷积核为3x3的空洞卷积。6.根据权利要求1所述的基于编解码网络的图像‑文本多模态融合方法,其特征在于,步骤S2所述适合的优化学习方法为随机梯度优化器,所述相关的超参数为学习率、批尺寸、动量和权重衰减系数。2CN113887585A说明书1/4页基于编解码网络的图像‑文本多模态融合方法技术领域[0001]本发明涉及一种基于编解码网络的图像‑文本多模态融合方法,属于计算机视觉、自然语言处理、模式识别技术领域。背景技术[0002]近年来,随着人工智能技术的快速发展,涌现出了一大批基于深度学习的目标检测算法。目标检测即找出图像中所有感兴趣的物体,包含物体定位和物体分类两个子任务,同时确定物体的类别和位置。目前基于深度学习的目标检测模型主要有YOLO、ResNet、SSD及基于卷积神经网络(CNN)系列模型等等。对于经典的基于深度学习的目标检测算法往往仅通过图像一个维度进行,因此相关领域的学者为了使其获得更高的精度,便对网络进行不断的改进,对于网络的改进往往更多采用改进深度网络的方法来实现,而对于深度网络不断的增加层数可能会导致梯度消失,梯度爆炸等问题。为了解决这些问题,有学者提出了许多改进的网络结构,但此结构会使得网络变得更为复杂。发明内容[0003]对于上述问题,结合多任务联合处理的思想,本发明提出了一种基于编解码网络的图像‑文本多模态融合方法。通过对图像的处理以及图像相对应的文本的处理所获得的特征矩阵进行融合处理,从而能够使得文本信息与图像信息相互融合,获得处理后更准确的结果。[0004]本发明为解决其技术问题采用如下技术方案:[0005]一种基于编解码网络的图像‑文本多模态融合方法,包括如下步骤:[0006]S1:在现有目标检测数据集的基础上对其进行手动标记