预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114170618A(43)申请公布日2022.03.11(21)申请号202111140075.6G06K9/62(2022.01)(22)申请日2021.09.28G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人广州新华学院地址510000广东省广州市天河区龙洞华美路19号(72)发明人衣杨邱泽敏陈怡华刘东琳赵小蕾(74)专利代理机构芜湖宸泽知识产权代理事务所(普通合伙)34208代理人李俊建(51)Int.Cl.G06V40/10(2022.01)G06V20/40(2022.01)G06V10/774(2022.01)G06V10/82(2022.01)权利要求书1页说明书4页附图1页(54)发明名称基于双流时空分解的视频人体行为识别算法(57)摘要本发明提供一种基于双流时空分解的视频人体行为识别算法,改进了双流网络的输入特征,使用压缩视频的I帧训练空间流网络,P帧训练时间流网络,保留了双流网络的基本框架,提出了新的双流时空分解卷积网络,将3D残差卷积网络(ResNet3D)中的3D卷积网络拆分为二维空间卷积网络和一维时间卷积网络的混合网络,既保证了模型可以使用3D卷积网络有效地获取时序信息,又减少了网络训练的参数量,使得网络更易于优化。CN114170618ACN114170618A权利要求书1/1页1.一种基于双流时空分解的视频人体行为识别算法,其特征在于,包括以下操作步骤:步骤一:建立双流时空分解的残差块,并将其作为残差卷积网络的基本框架;步骤二:将上述步骤一获取的残差卷积网络中的每个完整的3D卷积核分解为一个二维的空间卷积操作和一个一维的时间卷积操作,并且每个分解出的卷积操作均带有完整的BN层和ReLU激活层;步骤三:根据步骤二中分解的二维的空间卷积操作建立用于压缩视频的I帧的空间流网络;根据步骤二中分解的一维的时间卷积操作建立用于融合运动向量和残差的P帧的时间流网络;步骤四:将时间流网络中的最后一个残差的输出与当前空间流网络的输入相乘融合,并将融合结果作为空间流网络的输入。2.根据权利要求1所述的一种基于双流时空分解的视频人体行为识别算法,其特征在于,步骤三中所述的空间流和时间流网络均采用二维卷积核cf2和一维卷积核cf1融合的方式提取运动信息。2CN114170618A说明书1/4页基于双流时空分解的视频人体行为识别算法技术领域[0001]本发明涉及人体动作识别技术领域,尤其涉及一种基于双流时空分解的视频人体行为识别算法。背景技术[0002]近些年来,随着计算机算力大幅提升和大规模数据集不断被提出,许多研究证明了深度卷积网络可以在视频人体行为识别领域取得优异的性能和识别效果,基于深度学习进行运动建模的人体行为识别方法的研究重点主要在于构建具有优秀判别力的模型,现阶段主流的卷积神经网络框架包括长短期记忆网络(LongShort‑TermMemoryNetwork,LSTM)、双流网络(Two‑streamNetwork)和3D卷积网络等。[0003]双流网络是最具有代表性的人体行为识别网络框架,它构建了两个独立的卷积网络流分别处理视频的外观信息和运动信息,最后融合两个网络流的结果得到最终的分类标签。[0004]3D卷积网络框架以3D卷积核作为结构主体,通过3D卷积核的时空感受野提取视频的空间信息和时间信息,能够有效地从捕捉运动主体的外观信息和运动信息,可以实现同时对空间和时间维度进行操作,因此,基于3D卷积网络的方法可以直接获取视频流的运动信息,实现视频端到端的训练,进而极大地提高了模型的特征提取能力和推理速度。[0005]近年来主要使用视频压缩编码特征作为深度学习网络输入的基准方法CoViAR使用三个独立的二维卷积网络分别训练I帧、运动向量和残差,对包含完整图像信息的I帧使用较复杂的网络结构,对包含较少图像信息的运动向量MV和残差R使用轻量级的网络,这样的方式近似构建了三个空间流网络,后来提出的DMC‑Net利用生成对抗网络(GAN)根据运动向量和残差重建新的运动线索特征作为时间流特征,但这些方法没有充分利用运动向量和残差所包含的运动信息,因此算法的精度受到极大的限制。[0006]而3D卷积网络被证明了可以通过多出一个维度的卷积核使网络更好地捕捉到视频帧中的时序信息,对于包含着运动信息的由运动向量和残差组成的P帧可以有效地获取其空间外观信息和时间运动信息的关联特征。[0007]但是传统的3D卷积网络模型参数量较大,对网络训练的内存和算力要求较高,现有的硬件设备条件难以支持3D卷积网络的发展,会严重限制模型的效率,如何降低3D网络的参数量同时提升其提取时序信息的性能是3D网络框架的重要研究方向之一。