预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共35页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115937728A(43)申请公布日2023.04.07(21)申请号202210041995.0(22)申请日2022.01.13(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人颜波(74)专利代理机构北京恒博知识产权代理有限公司11528专利代理师杨代凯(51)Int.Cl.G06V20/40(2022.01)G06V10/80(2022.01)权利要求书3页说明书20页附图11页(54)发明名称视频场景识别方法、装置、存储介质及电子设备(57)摘要本说明书公开了一种视频场景识别方法、装置、存储介质及电子设备,其中方法包括:获取目标视频的目标视频帧,将目标视频帧输入场景解析网络中,通过所述场景解析网络确定目标视频帧对应的第一区域图像特征和参考视频帧对应的第二区域图像特征,通过场景解析网络对第一区域图像特征和第二区域图像特征进行时序特征融合,输出目标视频帧对应的区域类别图。采用本说明书,可以提高视频场景识别的准确率。CN115937728ACN115937728A权利要求书1/3页1.一种视频场景识别方法,所述方法包括:获取目标视频的目标视频帧;将目标视频帧输入场景解析网络中,通过所述场景解析网络确定所述目标视频帧对应的第一区域图像特征和参考视频帧对应的第二区域图像特征,所述参考视频帧为所述目标视频帧之前的视频帧;通过所述场景解析网络对所述第一区域图像特征和第二区域图像特征进行时序特征融合,输出所述目标视频帧对应的区域类别图。2.根据权利要求1所述的方法,所述场景解析网络包含空间分支网络、语义分支网络以及特征融合网络,所述通过所述场景解析网络确定所述目标视频帧对应的第一区域图像特征,包括:通过所述空间分支网络对所述目标视频帧进行空间信息分割处理,得到空间信息特征;通过所述语义分支网络对所述目标视频帧进行语义信息分割处理,得到语义信息特征;通过所述特征融合网络对所述空间信息特征以及语义信息特征进行特征融合,得到所述目标视频帧对应的第一区域图像特征。3.根据权利要求2所述的方法,所述通过所述语义分支网络对所述目标视频帧进行语义信息分割处理,得到语义信息特征,包括:通过基于视觉变换器的语义分支网络对所述目标视频帧进行语义信息分割,得到语义信息特征;其中,所述基于视觉变换器的语义分支网络由块拆分层、四个视觉阶段以及注意力优化模块构成;第一视觉阶段由线性嵌入层和视觉变换器构成;第二视觉阶段、第三视觉阶段以及第四视觉阶段由块合并层和所述视觉变换器构成;所述第三视觉阶段与第一注意力优化模块连接;所述第四视觉阶段与第二注意力优化模块连接。4.根据权利要求1所述的方法,所述通过所述场景解析网络对所述第一区域图像特征和第二区域图像特征进行时序特征融合,输出所述目标视频帧对应的区域类别图,包括:基于所述场景解析网络的时序特征融合模块对所述第一区域图像特征和第二区域图像特征进行特征拼接处理,得到图像融合特征;基于所述时序特征融合模块对所述图像融合特征进行特征融合分类,输出所述目标视频帧对应的区域类别图。5.根据权利要求4所述的方法,所述对所述第一区域图像特征和第二区域图像特征进行特征拼接处理,得到图像融合特征,包括:对所述第一区域图像特征和第二区域图像特征进行通道特征拼接,得到图像融合特征。6.根据权利要求4所述的方法,所述时序特征融合模块包含至少一个视觉变换器,所述基于所述时序特征融合模块对所述图像融合特征进行特征融合分类,输出所述目标视频帧对应的区域类别图,包括:将所述图像融合特征输入至所述时序特征融合模块的至少一个视觉变换器进行特征融合分类,输出所述目标视频帧对应的区域类别图。2CN115937728A权利要求书2/3页7.根据权利要求4所述的方法,所述第二区域图像特征为多个,所述基于所述场景解析网络的时序特征融合模块对所述第一区域图像特征和第二区域图像特征进行特征拼接处理,包括:基于所述场景解析网络的时序特征融合模块对各所述第二区域特征进行特征融合,得到特征融合处理后的目标第二区域图像特征;基于所述场景解析网络的时序特征融合模块对所述第一区域图像特征和目标第二区域图像特征进行特征拼接处理。8.根据权利要求7所述的方法,所述基于所述场景解析网络的时序特征融合模块对各所述第二区域特征进行特征融合,得到特征融合处理后的目标第二区域图像特征,包括:基于所述场景解析网络的时序特征融合模块对各所述第二区域图像特征进行通道特征平均,得到目标第二区域图像特征。9.根据权利要求1所述的方法,所述将目标视频帧输入场景解析网络中,通过所述场景解析网络确定所述目标视频帧对应的第一区域图像特征和参考视频帧对应的第二区域图像特