预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112149504A(43)申请公布日2020.12.29(21)申请号202010849991.6(22)申请日2020.08.21(71)申请人浙江理工大学地址310018浙江省杭州市江干经济开发区2号大街928号(72)发明人杨慧敏田秋红(74)专利代理机构杭州求是专利事务所有限公司33200代理人林超(51)Int.Cl.G06K9/00(2006.01)G06K9/32(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)权利要求书2页说明书7页附图2页(54)发明名称混合卷积的残差网络与注意力结合的动作视频识别方法(57)摘要本发明公开了一种混合卷积的残差网络与注意力结合的动作视频识别方法。包括:1)读取动作视频中人的动作,然后将动作视频转换为原始视频帧图像;2)分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强,组成获得视频帧图像;3)构建注意力模块,利用注意力模块构建混合卷积块,级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型,用混合卷积残差网络模型对视频帧图像进行时空特征学习,获取关键特征图;4)使用Softmax分类层对关键特征图进行分类。本发明在扩展网络深度的同时,保留视频帧的特征信息,充分融合时空特征,提高重要通道特征的相关度,有效地提高动作识别的预测性能。CN112149504ACN112149504A权利要求书1/2页1.一种混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:包括以下步骤:1)读取动作视频中人的动作,然后将动作视频转换为原始视频帧图像;2)分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强,组成获得视频帧图像;3)构建注意力模块,利用注意力模块构建混合卷积块,级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型,用混合卷积残差网络模型对视频帧图像进行时空特征学习,获取关键特征图;混合卷积块表达为:Xt+1=Xt+W(Xt)其中,Xt和Xt+1表示第t个MC-RAN模块的输入和输出;Xt和Xt+1具有相同的特征维度,W代表加入注意力机制的混合卷积残差函数;4)使用Softmax分类层对关键特征图进行分类。2.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述步骤2)具体为:时间抽样:对于每个动作视频,随机采样16帧动作视频的连续帧进行训练;如果连续帧的帧数达不到16帧,就循环播放该动作视频,直至连续帧的帧数达到16帧;随机裁剪:将原始视频帧图像的大小调整为128×171像素,然后将原始视频帧图像的大小随机裁剪为112×112像素;亮度调整:随机调整原始视频帧图像的亮度。3.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述步骤3)具体为:选取3DResNet网络结构作为基本网络结构,3DResNet网络结构中原有的3D卷积模块由第一卷积层和四个混合卷积块代替,混合卷积块包括MC-RAN模块和加合层;MC-RAN模块包括(2+1)D卷积层、第一批量归一化层、第一ReLU激活层、3D卷积层和第二批量归一化层,所述(2+1)D卷积层是由2D卷积层中加入注意力模块组成;混合卷积块的输入Xt输入MC-RAN模块,MC-RAN模块输出后的特征图与输入Xt通过加合层进行特征图相加,相加后的特征图经第二ReLU激活层处理后的输出作为混合卷积块的输出Xt+1,每个混合卷积块之后级联3D最大池化层进行下采样;第i个尺寸为Ni-1×t×d×d的3D卷积层由Mi个尺寸为Ni-1×1×d×d的第二2D卷积层和Ni个尺寸为Mi×t×1×1的时序卷积层组成,Mi由以下公式计算:其中,d表示3D卷积层输出特征图的宽高尺寸参数,t表示时刻时序,[]表示向下取整。4.根据权利要求3所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述(2+1)D卷积层主要由第一2D卷积层、空间注意力模块MSS、时间卷积层和通道注意力模块MCS级联构成,由空间注意力模块MSS和通道注意力模块MCS构成了注意力模块;2CN112149504A权利要求书2/2页空间注意力模块MSS通过第三2D卷积层来获取输入特征图在空间维度上的空间权重图WSS;通道注意力模块MCS通过添加多层感知器来获取输入特征图在通道维度上的通道权重图WCS;所述空间注意力模块MSS的构建具体为:当输入特征图F的大小为C×H×W时,C代表输入特征图中每一帧图像的通道数,H和W代表输入特征图中每一帧图像的宽高尺寸参数;首先,利用全局平均池化对输入特征图中每一帧图像的通道进行压