预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113673364A(43)申请公布日2021.11.19(21)申请号202110859397.XG10L25/57(2013.01)(22)申请日2021.07.28(71)申请人上海影谱科技有限公司地址201718上海市青浦区金泽镇(西岑)水秀路318号108室(72)发明人宋波(74)专利代理机构北京万思博知识产权代理有限公司11694代理人孙黎生(51)Int.Cl.G06K9/00(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)G10L25/30(2013.01)权利要求书2页说明书6页附图3页(54)发明名称一种基于深度神经网络的视频暴力检测方法及装置(57)摘要本申请公开了一种基于深度神经网络的视频暴力检测方法及装置,所述方法包括:检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。所述装置包括:暴力概念模块、混合特征模块和融合检测模块。本申请利用两个深度神经网络形成的暴力概念,最终形成一个暴力主题,从而达到了检测视频中普遍存在的暴力行为的目标。CN113673364ACN113673364A权利要求书1/2页1.一种基于深度神经网络的视频暴力检测方法,包括:检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。2.根据权利要求1所述的方法,其特征在于,利用已训练的第一神经网络检测目标视频的视觉特征包括:提取目标视频在预测间隔时间内的全部视频帧并计算所述全部视频帧之间的光通量以及光学加速度;利用所述已训练的第一深度神经网络模型进行视觉特征检测。3.根据权利要求1或2所述的方法,其特征在于,获得所述已训练的第一深度神经网络模型包括:采用C3D模型,遵循随机梯度下降算法对第一深度神经网络模型进行训练;对于训练集中的原始帧、光流和光加速度采用连续帧和相距P帧的连续光流和光加速进行模型训练;其中,P为正整数。4.根据权利要求1或2所述的方法,其特征在于,利用已训练的第二神经网络检测目标视频的听觉特征包括:对所述目标视频对应的音频信息进行特征提取,利用至少两种标准音频特征提取器生成特征向量;对生成的特征向量应用统计方法,对于不同提取器获得的特征向量进行串联,提取区别性的特征向量。5.根据权利要求4所述的方法,其特征在于,所述标准音频特征提取器包括:短时傅里叶变换特征提取器、离散余弦变换特征提取器、离散小波变换特征提取器、梅尔频谱和梅尔倒谱变换特征提取器。6.根据权利要求4所述的方法,其特征在于,将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测包括:将所述视觉特征和所述听觉特征进行视听融合网络的训练,视听融合网络将子概念训练形成的特征向量作为输入,输出目标视频中存在暴力的可能性结果。7.根据权利要求6所述的方法,其特征在于,将所述视觉特征和所述听觉特征进行视听融合网络的训练包括:利用视觉听觉特征融合网络管道中,并行处理每个子概念对应的所述视觉特征和所述听觉特征,生成视觉特征向量和听觉特征向量;利用浅层网络每个隐藏层分别针对神经元实现关于网络性能的最佳权衡;所述浅层网络根据视听特征权重,获得针对每个暴力概念训练的模型的最终特征;通过标准的Min‑Max归一化步骤传递特征向量。8.根据权利要求2所述的方法,其特征在于,提取目标视频在预测间隔时间内的全部视频帧之后还包括:2CN113673364A权利要求书2/2页对所述全部视频帧进行标准化处理,得到标准化视频帧数据集。9.一种基于深度神经网络的视频暴力检测装置,包括:暴力概念模块,设置为检测目标视频中每个暴力子概念,所述暴力子概念为预先设置的传达暴力理念的K个客观的子概念;混合特征模块,设置为针对每个子概念,利用已训练的第一神经网络检测目标视频的视觉特征,利用已训练的第二神经网络检测目标视频的听觉特征;融合检测模块,设置为将所有子概念对应的所述视觉特征和所述听觉特征进行融合,根据融合得到的特征向量进行暴力行为检测。10.一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述