预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113902926A(43)申请公布日2022.01.07(21)申请号202111477045.4G06N3/08(2006.01)(22)申请日2021.12.06(71)申请人之江实验室地址310023浙江省杭州市余杭区文一西路1818号(72)发明人李特王世杰朱世强顾建军王兴刚(74)专利代理机构杭州求是专利事务所有限公司33200代理人贾玉霞(51)Int.Cl.G06V10/44(2022.01)G06V10/82(2022.01)G06K9/62(2022.01)G06N3/04(2006.01)权利要求书4页说明书11页附图3页(54)发明名称一种基于自注意力机制的通用图像目标检测方法和装置(57)摘要本发明公开一种基于自注意力机制的通用图像目标检测方法,该方法是基于DETR模型的改进,其包括对将含边界框标注的训练集图像输入图像特征提取网络,获得图像特征;将图像特征依次通过多头十字交叉注意力模块和多方向交叉注意力模块,获得解码器输出增强目标查询向量;将增强目标查询向量分别通过模型的分类层和回归层得到目标图像物体边界框和物体类别概率;计算网络整体损失对模型进行训练,得到目标检测模型;利用上述模型对待检测图像进行目标检测。本发明相比于DETR模型,在保证目标检测准确的同时,加快模型训练速度,减小模型的计算复杂度,提高模型灵活性与实用性。CN113902926ACN113902926A权利要求书1/4页1.一种基于自注意力机制的通用图像目标检测方法,其特征在于,该方法包括如下步骤:步骤一:将含边界框标注的训练集图像输入图像特征提取网络,获得维度为的图像特征;步骤二:将所述图像特征,输入由L个十字交叉注意力层串联而成的多头十字交叉注意力模块,获得编码器输出特征图;其中,所述十字交叉注意力层首先通过该层输入的图像特征获得该层多组编码器归一化后的注意力权重A和对应的编码器值向量V;然后通过A和V求出该层初步增强特征图;接着,将所述替换该层输入的图像特征,再次经过上述步骤,得到中间结果增强特征图;最后将中间结果增强特征图与输入的图像特征对应元素相加,经过该层编码器前馈网络和该层编码器层归一化后,得到该多头十字交叉注意力层输出的增强特征;步骤三:将所述编码器输出特征图,通过由L个多方向交叉注意力层串联而成的多方向交叉注意力模块,获得解码器输出增强目标查询向量;所述多方向交叉注意力层首先通过编码器输出特征图获得该层多组解码器归一化后的注意力权重和对应的解码器值向量,然后通过所述和求出该层融合后的增强目标查询特征;最后,改变所述维度为,依次经过该层解码器前馈网络和该层解码器层归一化后,得到该层多方向交叉注意力层输出的目标查询向量;步骤四:将所述解码器输出增强目标查询向量分别通过分类层和回归层得到训练集图像的预测边界框类别概率和位置;步骤五:将所述训练集图像的预测边界框类别概率和位置,与训练集图像的真实边界框类别和位置信息计算网络整体损失函数,通过反向传播方法对模型进行训练,得到目标检测模型;步骤六:利用所述目标检测模型对待检测图像进行目标检测,以检测出所述待检测图像中待检测物体。2.根据权利要求1所述的基于自注意力机制的通用图像目标检测方法,其特征在于,每个多头十字交叉注意力层的操作具体如下:S2.1:对于第一层多头十字交叉注意力层,将所述图像特征按照第1个维度等分为M组维度为子图像特征;对于第i层多头十字交叉注意力层,,将第i‑1层多头十字交叉注意力层输出的维度为的增强特征按照第1个维度等分为M组子图像特征,其中第i层输入的第m组子图像特征的维度为,;将第L层多头十字交叉注意力层输出的增强特征作为编码器输出特征图;S2.2:将所述分别经过第i层第m组编码器查询向量卷积和第i层第m组编码器匹配键值卷积,分别得到第i层第m组编码器查询向量、第i层第m组的编码器匹配键值;所述,维度为;S2.3:采用下式计算第i层第m组第u个位置编码器未归一化注意力权重:2CN113902926A权利要求书2/4页其中,表示的第u个位置向量,其维度为;表示第u个位置同行同列向量,其维度为;u表示在分辨率维度上的一个位置,;将所有位置拼接成为第i层第m组编码器未归一化注意力权重,其维度为;将每一元素除以后,在第1个维度上进行softmax操作,得到第i层第m组编码器归一化后的注意力权重;S2.4:将所述经过第i层第m组编码器值向量卷积,得到第i层第m组的编码器值向量,其维度为;S2.5:根据下式计算第i层第m组第u个位置初步增强特征图:其中,表示第u个位置向量,其维度为;表示所述第u个位置同行同列向量,其维度为;将所有位置拼接后经过第i层编码器融合卷积,从而得到第i层初步增强特