预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共38页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761278A(43)申请公布日2021.12.07(21)申请号202110443120.9(22)申请日2021.04.23(71)申请人腾讯科技(深圳)有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人袁宇辰郑茂(74)专利代理机构北京康信知识产权代理有限责任公司11240代理人周婷婷(51)Int.Cl.G06F16/78(2019.01)G06K9/00(2006.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书20页附图14页(54)发明名称视频标签的确定方法和装置、存储介质及电子设备(57)摘要本发明公开了一种视频标签的确定方法和装置、存储介质及电子设备。其中,该方法包括:在视频标签确定的过程中,在视频级特征的基础上,融合图片级特征得到融合特征,以确定视频的视频标签,从而实现即使从视频中抽取的视频帧中只有少量视频帧包含目标对象,也能结合图片级特征准确地定位到目标对象(而非其他内容)上,使得确定出的视频标签更准确,进而解决了现有技术中,确定的视频标签准确性较低的技术问题。CN113761278ACN113761278A权利要求书1/3页1.一种视频标签的确定方法,其特征在于,包括:在目标视频中获取一组视频帧;获取所述一组视频帧中的每个视频帧的视频级特征,得到一组视频级特征;获取所述一组视频帧中的每个视频帧的图片级特征,得到一组图片级特征;将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征;根据所述第一组融合特征,确定所述目标视频的视频标签。2.根据权利要求1所述的方法,其特征在于,所述获取所述一组视频帧中的每个视频帧的图片级特征,得到第一组图片级特征,包括:对所述每个视频帧进行目标检测,得到所述每个视频帧的目标检测结果;根据所述每个视频帧的目标检测结果,获取所述每个视频帧的目标局部图片;对所述每个视频帧的目标局部图片进行特征提取,得到所述每个视频帧的图片级特征。3.根据权利要求2所述的方法,其特征在于,所述对所述每个视频帧进行目标检测,得到所述每个视频帧的目标检测结果,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,将所述每个视频帧依次作为当前视频帧:对所述当前视频帧进行目标检测,得到所述当前视频帧的目标检测结果,其中,在所述当前视频帧中检测到一组目标的情况下,所述当前视频帧的目标检测结果包括所述当前视频帧中所述一组目标所在的检测框,所述一组目标包括1个或至少2个目标。4.根据权利要求3所述的方法,其特征在于,所述对所述当前视频帧进行目标检测,得到所述当前视频帧的目标检测结果,包括:将所述当前视频帧进行预处理,得到第一预处理图片,其中,所述第一预处理图片的图片尺寸为第一预设尺寸;将所述第一预处理图片输入到目标检测模型,得到所述目标检测模型输出的所述当前视频帧的目标检测结果,其中,所述目标检测模型用于在所述第一预处理图片中检测预设类型的目标,所述预设类型包括1个或至少2个类型。5.根据权利要求2所述的方法,其特征在于,所述根据所述每个视频帧的目标检测结果,获取所述每个视频帧的目标局部图片,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,所述每个视频帧为当前视频帧:在所述当前视频帧的目标检测结果包括所述当前视频帧中检测到的一组目标所在的检测框的情况下,在所述一组目标所在的检测框中确定出面积满足预设条件的检测框,并在所述当前视频帧中获取所述面积满足预设条件的检测框所包含的所述目标局部图片。6.根据权利要求1所述的方法,其特征在于,所述获取所述一组视频帧中的每个视频帧的视频级特征,得到一组视频级特征,包括:对所述每个视频帧执行以下操作,其中,在执行以下操作时,所述每个视频帧为当前视频帧:将所述当前视频帧进行预处理,得到第二预处理图片,其中,所述第二预处理图片的图片尺寸为第二预设尺寸;2CN113761278A权利要求书2/3页将所述第二预处理图片输入到第一神经网络模型,得到所述第一神经网络模型输出的所述当前视频帧的视频级特征,其中,所述第一神经网络模型用于根据所述第二预处理图片提取所述当前视频帧的视频级特征。7.根据权利要求1所述的方法,其特征在于,所述将所述一组视频级特征和所述一组图片级特征进行特征融合,得到第一组融合特征,包括:在所述一组视频帧包括从所述目标视频中抽取的N个视频帧的情况下,将所述一组视频级特征和所述一组图片级特征进行特征拼接,得到所述第一组融合特征,其中,N为1或大于或等于2的自然数,所述一组视频级特征包括N×LV个特征,所述每个视频帧的视频级特征包括1×LV个