预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111639548A(43)申请公布日2020.09.08(21)申请号202010394250.3(22)申请日2020.05.11(71)申请人华南理工大学地址510006广东省广州市番禺区广州大学城(72)发明人高英林文根(74)专利代理机构北京盛凡智荣知识产权代理有限公司11616代理人尚欣(51)Int.Cl.G06K9/00(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书5页附图5页(54)发明名称一种基于门的视频上下文多模态感知特征优化方法(57)摘要一种基于门的视频上下文多模态感知特征优化方法,具体步骤为,步骤一:输入RGB视频序列和光流序列;步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;步骤三:输入双流特征优化结构;步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。CN111639548ACN111639548A权利要求书1/1页1.一种基于门的视频上下文多模态感知特征优化方法,其特征在于,具体步骤为,步骤一:输入RGB视频序列和光流序列;步骤二:通过外观特征提取器和运动特征提取器提取得到双模态的基础特征;步骤三:输入双流特征优化结构;步骤四:通过连接的RGB特征优化记忆流和光流特征优化记忆流进行上下文和多模态的感知优化,得到对应的记忆流保留优化特征;步骤五:对RGB特征优化记忆流和光流特征优化记忆流保留特征进行串联,得到对应模态的优化特征;步骤六:对RGB特征优化特征和光流特征优化特征进行通道融合,形成视频级的特征表征。2.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行上下文感知优化具体为,设置同模态时序上下文学习器,其输入为前一交互学习后的优化特征及当前模态当前帧的特征,其主要结构为1*1卷积层和通道注意力结构,用于学习联合前后帧的上下文信息后、该模态在这个时间节点保留的特征,这里运用通道注意力的深度卷积网络能够有效提取上下文特征,并以此学习与帧特征尺度一致的掩码矩阵作为参数,实现门的设计,保证了同模态信息的时序传递。3.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤四中RGB特征优化记忆流和光流特征优化记忆流进行多模态的感知优化,具体为:设置跨模态交互学习器,其输入为当前模态当前节点帧和另一个模态当前节点帧,RGB序列和光流序列的总帧数一致,故能保持每个时间节点的特征帧一一对应,跨模态交互学习器包括1*1的卷积层和通道注意力的网络设计,学习同一时间节点帧下跨模态之间的相互关系,生成同被修改帧相同尺度的更新掩码,即交互学习的参数,同被修改特征相乘,实现门的作用,跨模态交互学习器实现了模态之间交互联系的建模。4.根据权利要求1所述基于门的视频上下文多模态感知特征优化方法,其特征在于:所述步骤五具体为,循环迭代的长序列特征优化记忆单元串联RGB和光流的双模态输入,每个输入流每一帧嵌入一个同模态时序上下文学习器和一个跨模态交互学习器,实现了同模态上下文保留和跨模态特征学习优化的协同,其中长序列双流特征优化结构整体呈双流对称的设计特点,同模态时序上下文学习器学习当前模态历史与当前帧的上下文的保留信息沿着特征优化记忆流延续到下一个记忆单元,非保留信息则视为可更新优化特征,通过跨模态交互学习器学习的门参数对非保留信息进行特征优化,这部分即为跨模态交互得到的优化特征并与通过同模态时序上下文学习器的上下文保留信息合并成为当前模态当前时间戳的优化记忆特征,并传递到下一个双流特征优化记忆单元。2CN111639548A说明书1/5页一种基于门的视频上下文多模态感知特征优化方法技术领域[0001]本发明涉及视频分析技术领域,具体涉及一种基于门的视频上下文多模态感知特征优化方法。背景技术[0002]现有计算机视觉等相关技术领域中,行为识别和视频行人重识别等领域采用的多模态融合方案,存在多模态信息利用不完全、特征并行而缺乏多模态全局的监督学习的问题。视频或者图像序列与单一图像的区别不止在于外观特征更加丰富且连续和以光流为代表的运动模态的丰富信息,还在于运动模态的关键信息可以有助于区分外观层面的关键特征以及外观信息的突出特征可以作为运动模态层面的启发信息,即模态之间交互学习的作用。时序上的交互