预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113673420A(43)申请公布日2021.11.19(21)申请号202110954164.8(22)申请日2021.08.19(71)申请人清华大学地址100084北京市海淀区清华园1号(72)发明人张新钰王力李骏曾维佳刘伟杨磊(74)专利代理机构北京三聚阳光知识产权代理有限公司11250代理人张建纲(51)Int.Cl.G06K9/00(2006.01)G06K9/34(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)权利要求书3页说明书7页附图1页(54)发明名称一种基于全局特征感知的目标检测方法及系统(57)摘要本发明公开了一种基于全局特征感知的目标检测方法及系统,所述方法包括:实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络。本发明的方法可以提升检测精度并有效增强目标检测的泛化性能。CN113673420ACN113673420A权利要求书1/3页1.一种基于全局特征感知的目标检测方法,所述方法包括:实时获取相机采集的RGB图像,对该图像进行切割,获取原始监控图像;将原始监控图像输入训练好的全局感知特征提取器,输出检测结果;所述全局感知特征提取器包括:图像切分模块、Transfomer编码器、上采样和通道压缩模块、特征重标定模块和分类网络;所述图像切分模块,用于对待检测的图像进行切分,形成若干个固定大小的图像块,并将位置嵌入添加到图像块中,输出线性嵌入序列;所述Transformer编码器,用于利用自注意力机制对线性嵌入序列进行处理,提取整张图像的特征图;所述上采样和通道压缩模块,用于扩大整张图像的特征图的分辨率,并进行通道压缩;所述特征重标定模块,用于将上采样和通道压缩模块输出的特征图与待检测图像进行拼接,利用注意力机制对拼接特征的通道进行权重分配,再将加权后的特征图送入分类网络中;所述分类网络:用于对加权后的特征图进行目标检测,输出检测结果。2.根据权利要求1所述的基于全局特征感知的目标检测方法,其特征在于,所述图像切分模块的具体实现过程为:将原始监控图像切分为图像块pi,(H,W)表示原始监控图像的分辨率,C为图像的通道数,其中S2表示图像块大小,N表示图像块的数量并且将图像块pi铺展成一维向量后使用全连接层FC(·)对该图像块进行“词嵌入”操作,“词嵌入”向量Emb(i)为:Emb(i)=FC(Flatten(pi))+Lpi其中,Flatten(pi)为将图像块pi铺展成一维向量;Lpi为一个可学习的变量,以表征图像块的位置编码信息;将线性嵌入序列[Emb(0),Emb(1),…,Emb(N)]输出至Transfomer编码器。3.根据权利要求2所述的基于全局特征感知的目标检测方法,其特征在于,所述Transfomer编码器由L个块堆叠而成,每个块均包含第一层归一化单元、多头自注意力模块、第一加法单元、第二层归一化单元、多层感知机和第二加法单元;对于第l个块,其输入向量为yl‑1,其中,第一个块的输入向量为y0=[Emb(0),Emb(1),…,Emb(N)];上一个块的输出为下一个块的输入;第一层归一化单元对输入向量yl‑1进行层归一化处理得到向量X=LN(yl‑1);多头自注意力模块包括M个单头,第m个单头的自注意机制的输出SAm为:其中,和均代表线性转换矩阵,代表第m个单头的矩阵的维度;将M个单头的自注意机制的输出拼接起来,通过乘一个线性变换矩阵WO得到多头自注意力模块的输出MHA(X):2CN113673420A权利要求书2/3页oMHA(X)=Concat[SA1,…,SAM]W第一加法单元,用于将多头自注意力模块的输出与输入向量进行相加,结果为y′l:y′l=MHA(X)+yl‑1第二层归一化单元,用于对y′l进行层归一化处理得到向量LN(y′l);多层感知机,用于对向量LN(y′l)进行处理,输出处理结果:MLP(LN(y′l))第二加法单元,用于将多层感知机的输出与y′l进行相加:yl=MLP(LN(y′l))+y′l则第l个块的输出为yl,第L个块的输出yL为Transfomer编码器的输出。4.根据权利要求3所述的基于全局特征感知的目标检测方法,其特征在于,所述上采样和通道压缩模块包括多个堆叠的块,每个块均包含一个线性插值单元以及两个卷积层;第一个块输入的特征图为yL;上一个块的输出为下一个块的输入;最后一个块的输出为所述上采样和通道压缩模块的输出;线性插值单元,用于将输入的特征