预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114202739A(43)申请公布日2022.03.18(21)申请号202111483319.0G06V10/774(2022.01)(22)申请日2021.12.07G06V10/80(2022.01)(71)申请人大连理工大学宁波研究院地址315016浙江省宁波市江北区育才路26号申请人大连维视科技有限公司(72)发明人刘雪虎王一帆卢湖川(74)专利代理机构辽宁鸿文知识产权代理有限公司21102代理人苗青(51)Int.Cl.G06V20/52(2022.01)G06V20/40(2022.01)G06N3/04(2006.01)G06K9/62(2022.01)权利要求书3页说明书6页附图4页(54)发明名称视频行人重识别的方法(57)摘要本发明属于视频行人重识别技术领域,提供了一种视频行人重识别的方法。本发明使用Transformer结构提取多视角特征来解决视频行人重识别任务。视频行人重识别目的是实现行人序列图片的跨摄像头匹配。本发明提出使用三叉网络分别获取行人视频的空间视角,时序视角和时空视角,以此获得在不同特征域的多视角观察。在单一的视角特征域内使用Transformer挖掘单视角特征关系,并优化视角特征。在跨视角特征域间使用Transformer探索多视角特征关系,并融合多视角信息得到更充分的特征表示。本发明可以提取行人视频更鲁棒、更具判别力的特征表示,能够实现更高精度的行人视频实例匹配。CN114202739ACN114202739A权利要求书1/3页1.一种视频行人重识别的方法,其特征在于,步骤如下:步骤1:数据采样;对给定的行人视频进行抽帧采样得到序列图像,把每个行人视频等分成8个片段,从每个片段中抽取一张图片,并由此将一个视频片段构建成一个序列图像集;步骤2:构建批次;构建按行人编号构建批次,每个批次包含8个不同行人,每个行人有4个不同的序列图像集,共计32个序列图像集;步骤3:归一化处理;由于不同序列图像集中图片的规格和尺寸可能存在不同,对批次内每一个序列集中的每一张图片做数据的归一化处理;步骤4:数据增广;使用数据增广方法对批次内序列图片按照多种规则进行变化,其中包括图片随机裁剪、图片随机水平翻转、图片随机遮挡;步骤5:构建网络;构建基于Transformer的三叉视角神经网络,包括三叉视角特征提取器、自注意力池化模块、基于Transformer的视角特征优化器和基于Transformer的多视角特征融合模块;三叉视角特征提取器以ResNet‑50为骨架,然后使用自注意力池化模块将原始时空特征映射到空间视角和时间视角;接下来,使用视角特征优化器挖掘视角内部的关系依赖并对三种视角特征进行优化;最后,多视角特征融合模块在时空特征的基础上,融合时间和空间特征得到最终的行人视频编码特征;(1)三叉视角特征提取器使用ResNet‑50提取视频序列中每一帧的空间特征;ResNet‑50神经网络分为5个网络模块,每个网络块包含若干个残差神经网络;使用前4个网络模块作为时间、空间、时空三视角特征提取网络的共享层;使用3个不共享的第5个网络模块来做三视角的特征分离;由此,提取到三个不同的视频特征表示,分别代表时间、空间和时空视角;(2)自注意力池化模块引入自注意力池化模块来变换原始时空特征到空间视角域和时间视角域;对于变换时空特征到空间视角域,给定一个视频的原始的三维时空特征Xs∈RT×HW×C,这里T表示一个序列图像帧的个数,H,W分别表示特征的高和宽,C表示特征通道的个数;首先,sT×C使用一个线性映射层对时空特征中每一个空间特征Xi∈R,i∈[1,H×W]进行编码得到Fi∈RT×C,T×T其中,W表示线性变换的网络参数;然后,通过矩阵计算来生成自注意力矩阵Mi∈R,TMi=FiFi(2)T这里,(·)表示转置操作;之后,将Mi在时间维度求和,并使用softmax激活函数得到每一空间位置特征在不同时序上的注意力值,2CN114202739A权利要求书2/3页之后,空间特征和它对应的时序注意力值相乘得到自注意力池化后的特征,因此通过s自注意力特征池化将时空特征变换到空间视角域中,得到空间特征F={g1,…,gi,…,gH×W},i∈[1,H×W];同样地,采用相同的机制,将时空特征变换到时间视角域中,得到时序t特征F={g1,…,gi,…,gT},i∈[1,T];(3)基于Transformer的视角特征优化器使用Transformer挖掘各自视角域中的空间依赖关系、时间依赖关系和时空依赖关系;在时间视角域中,从三叉视角特征提取器中提取到的时间特征表示Ft∈RT×C传入到Transformer神经网络中;Transformer结构包含多