预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113963304A(43)申请公布日2022.01.21(21)申请号202111557734.6(22)申请日2021.12.20(71)申请人山东建筑大学地址250101山东省济南市历城区临港开发区凤鸣路1000号(72)发明人刘萌齐孟津田传发周迪郭杰马玉玲刘新锋(74)专利代理机构济南圣达知识产权代理有限公司37221代理人赵妍(51)Int.Cl.G06V20/40(2022.01)H04N13/327(2018.01)H04N13/161(2018.01)权利要求书2页说明书9页附图1页(54)发明名称基于时序-空间图的跨模态视频时序动作定位方法及系统(57)摘要本发明属于数据表示技术领域,提供了基于时序‑空间图的跨模态视频时序动作定位方法及系统,包括:接收视频数据和自然语言查询信息;基于自然语言查询信息确定自然语言查询特征表示;基于视频数据确定候选视频时序动作片段特征表示;基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。本发明上述两种特征表示预测对应候选视频时序动作片段的时序偏移量和相关性分数,大幅度提高视频时序动作定位的准确度。CN113963304ACN113963304A权利要求书1/2页1.基于时序‑空间图的跨模态视频时序动作定位方法,其特征在于,包括:接收视频数据和自然语言查询信息;基于自然语言查询信息确定自然语言查询特征表示;基于视频数据确定候选视频时序动作片段特征表示;基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示,预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性;通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正,得到最终目标视频时序动作片段定位结果。2.如权利要求1所述的基于时序‑空间图的跨模态视频时序动作定位方法,其特征在于,所述基于自然语言查询信息确定自然语言查询特征表示,包括:依据自然语言查询信息,获取初始自然语言查询特征表示;利用语义角色标注工具,对自然查询语言描述信息中语义关系进行标注,构成语义角色树;根据语义角色树叶子节点的名词表示,得到中间节点的动词表示;根据语义角色树中间节点的动词表示,得到根节点的自然语言查询信息表示;将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合,得到最终的自然语言查询特征表示。3.如权利要求2所述的基于时序‑空间图的跨模态视频时序动作定位方法,其特征在于,所述语义角色树的根节点为自然语言查询信息,叶子节点为自然语言查询信息中的名词信息,中间节点为自然语言查询信息中的动词信息。4.如权利要求2所述的基于时序‑空间图的跨模态视频时序动作定位方法,其特征在于,所述将根据语义角色树编码得到的自然语言查询特征表示,包括:对每一个所述中间节点下面连接的叶子节点的名词表示执行平均池化操作,得到新的中间节点的动词表示;将由聚合叶子节点得到的新的中间节点的动词表示与所述中间节点的动词表示进行融合得到增强后的中间节点的动词表示;将所有的增强后的中间节点的动词表示执行平均池化操作,得到增强后的根节点的自然语言查询特征表示。5.如权利要求1所述的基于时序‑空间图的跨模态视频时序动作定位方法,其特征在于,所述基于视频数据确定候选视频时序动作片段特征表示,包括:基于所述视频数据,利用时序和空间图网络提取视频单元的表示;根据二维时序矩阵构建视频时序动作片段候选集,并基于视频单元表示得到候选视频时序动作片段的特征表示。6.如权利要求5所述的基于时序‑空间图的跨模态视频时序动作定位方法,其特征在于,基于所述视频数据,利用时序和空间图网络提取视频单元的表示,包括:基于所述视频数据提取视频帧序列,对所述视频帧序列进行划分得到视频单元;对视频单元采用C3D网络,提取视频单元的全局表示;针对视频单元中的所有视频帧进行物体特征提取,得到物体表示集合;2CN113963304A权利要求书2/2页基于视频单元内所有物体表示构建时序图和空间图,并进行不同节点间的信息传播,得到时序图强化的视频单元表示和空间图强化的视频单元表示;将视频单元的全局表示、时序图强化的视频单元表示以及空间图强化的视频单元表示进行融合,得到最终的视频单元表示。7.如权利要求5所述的基于时序‑空间图的跨模态视频时序动作定位方法,其特征在于,所述根据二维时序矩阵构建视频时序动作片段候选集并提取候选视频时序动作片段特征表示,包括:依据最终的视频单元表示构建二维