预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115982409A(43)申请公布日2023.04.18(21)申请号202211628554.7G06N3/0464(2023.01)(22)申请日2022.12.17G06N3/048(2023.01)G06N3/084(2023.01)(71)申请人西安邮电大学地址710121陕西省西安市长安区韦郭路西安邮电大学南校区(72)发明人来毅于洁刘颖(74)专利代理机构西安永生专利代理有限责任公司61201专利代理师申忠才(51)Int.Cl.G06F16/783(2019.01)G06V20/40(2022.01)G06V10/82(2022.01)G06N3/045(2023.01)G06N3/0442(2023.01)权利要求书2页说明书7页附图1页(54)发明名称基于融合特征门控的三维卷积神经网络的视频检索方法(57)摘要一种基于融合特征门控的三维卷积神经网络的视频检索方法,由数据集预处理、划分数据集、构建三维卷积神经网络、训练三维卷积神经网络、测试三维卷积神经网络步骤组成。本发明对三维卷积神经网络进行了优化和提升,解决了现有技术中检索精度低的技术问题,且为解决同类问题提供一种不同的构思方案,采用了3个特征门控,特征门控采用重置门和更新门构成,解决了现有技术中视频信息冗余信息技术问题,能够更加精确地提取视频特征信息,为进一步检索奠定基础。本发明具有检索精度度稿、检索速度快、检索效果好等优点,可用于视频图像的检索。CN115982409ACN115982409A权利要求书1/2页1.一种基于融合特征门控的三维卷积神经网络的视频检索方法,其特征在于由下步骤组成:(1)数据集预处理取UCF‑101数据库13320个5~10秒的视频作为视频数据集,分成不用的种类,每个种类有25组,每组有4~7个时长不等的视频,按类别对数据集进行0‑101标号,作为识别标签,分别提取数据集的光流图像和颜色图像,光流图像和颜色图像包含x,y,i三个维度的特征,截取图像为224×224的像素,对数据集进行预处理;(2)划分数据集将视频数据集按照5:1的比例分成训练集、测试集;(3)构建三维卷积神经网络三维卷积神经网络由三维卷积模块与特征门控模块串联构成;所述的三维卷积模块由第一基本卷积层依次与第一最大池化层、第二基本卷积层、第三基本卷积层、第二最大池化层、第一3d卷积模块、第一特征门控模块、第三最大池化层、第二3d卷积模块、第二特征门控模块、第四最大池化层、第三3d卷积模块、第三特征门控模块、平均池化层、卷积层串联构成;所述的第一特征门控模块由重置门与更新门串联构成,按下式确定重置门rt:rt=σ(xtWxr+Ht‑1Whr+br)(1)其中,σ为非线性激活函数,xt为当前输入样本,Ht‑1为上一时刻隐藏状态,Wxr为重置门输出样本x的系数,Whr为重置门隐藏状态在训练中的参数,br为重置门的偏差,t、x为中间参数;按下式确定更新门zt:zt=σ(xtWxz+Ht‑1Whz+bz)(2)其中,xt为当前输入样本、Ht‑1为上一时刻隐藏状态、Wxz为更新门输入样本x的系数、Whz为更新门隐藏状态H的系数,bz为更新门的偏差,z为中间参数;第二特征门控、第三特征门控的结构与第一特征门控的结构相同;(4)训练三维卷积神经网络按下式确定交叉损失函数L:L=yloga+(1‑y)loga(3)其中,y为数据的真实值,y取值为[0,1],a为数据的预测值,a取值为(0,1];对三维卷积神经网络训练时分为8个组,每组32帧图像,每个批次为256,训练至三维卷积神经网络收敛,使用训练好的模型对测试集进行检测;评价指标采用所有测试数据的正确个数与总测试数据个数之比;按下式确定准确度P:其中,TP表示模型检索正确数据条数,FP表示模型检索错误数据条数;将训练集送入到三维卷积神经网络中进行训练,在训练的过程中,三维卷积神经网络学习率r∈[10‑4,10‑2],优化器采用SGD优化器,SGD优化器的动量值为0.1~1,迭代至交叉损失函数L收敛;(5)测试三维卷积神经网络2CN115982409A权利要求书2/2页将测试集输入到融合特征门控的三维卷积神经网络中进行测试。2.根据权利要求1所述的基于融合特征门控的三维卷积神经网络的视频检索方法,其特征在于:在(3)步骤中,所述的第一3d卷积模块由2个串联的3d卷积层构成,第二3d卷积模块由5个串联的3d卷积层构成,第三3d卷积模块由2个串联的3d卷积层构成。3.根据权利要求2所述的基于融合特征门控的三维卷积神经网络的视频检索方法,其特征在于:在(3)构建三维卷积神经网络步骤中,所述的3d卷积层的步长为2、卷积核大小为7×7。4.根据权利要求1所述的基于融合特征门