基于时序-空间图的跨模态视频时序动作定位方法及系统-豆柴文库

基于时序-空间图的跨模态视频时序动作定位方法及系统.pdf

2023-07-24

10金币

552KB

13页

新月****姐a

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共13页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113963304A(43)申请公布日2022.01.21(21)申请号202111557734.6(22)申请日2021.12.20(71)申请人山东建筑大学地址250101山东省济南市历城区临港开发区凤鸣路1000号(72)发明人刘萌齐孟津田传发周迪郭杰马玉玲刘新锋(74)专利代理机构济南圣达知识产权代理有限公司37221代理人赵妍(51)Int.Cl.G06V20/40(2022.01)H04N13/327(2018.01)H04N13/161(2018.01)权利要求书2页说明书9页附图1页(54)发明名称基于时序-空间图的跨模态视频时序动作定位方法及系统(57)摘要本发明属于数据表示技术领域，提供了基于时序‑空间图的跨模态视频时序动作定位方法及系统，包括：接收视频数据和自然语言查询信息；基于自然语言查询信息确定自然语言查询特征表示；基于视频数据确定候选视频时序动作片段特征表示；基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性；通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正，得到最终目标视频时序动作片段定位结果。本发明上述两种特征表示预测对应候选视频时序动作片段的时序偏移量和相关性分数，大幅度提高视频时序动作定位的准确度。CN113963304ACN113963304A权利要求书1/2页1.基于时序‑空间图的跨模态视频时序动作定位方法，其特征在于，包括：接收视频数据和自然语言查询信息；基于自然语言查询信息确定自然语言查询特征表示；基于视频数据确定候选视频时序动作片段特征表示；基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性；通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正，得到最终目标视频时序动作片段定位结果。2.如权利要求1所述的基于时序‑空间图的跨模态视频时序动作定位方法，其特征在于，所述基于自然语言查询信息确定自然语言查询特征表示，包括：依据自然语言查询信息，获取初始自然语言查询特征表示；利用语义角色标注工具，对自然查询语言描述信息中语义关系进行标注，构成语义角色树；根据语义角色树叶子节点的名词表示，得到中间节点的动词表示；根据语义角色树中间节点的动词表示，得到根节点的自然语言查询信息表示；将根据语义角色树编码得到的自然语言查询特征表示与初始自然语言查询特征表示进行融合，得到最终的自然语言查询特征表示。3.如权利要求2所述的基于时序‑空间图的跨模态视频时序动作定位方法，其特征在于，所述语义角色树的根节点为自然语言查询信息，叶子节点为自然语言查询信息中的名词信息，中间节点为自然语言查询信息中的动词信息。4.如权利要求2所述的基于时序‑空间图的跨模态视频时序动作定位方法，其特征在于，所述将根据语义角色树编码得到的自然语言查询特征表示，包括：对每一个所述中间节点下面连接的叶子节点的名词表示执行平均池化操作，得到新的中间节点的动词表示；将由聚合叶子节点得到的新的中间节点的动词表示与所述中间节点的动词表示进行融合得到增强后的中间节点的动词表示；将所有的增强后的中间节点的动词表示执行平均池化操作，得到增强后的根节点的自然语言查询特征表示。5.如权利要求1所述的基于时序‑空间图的跨模态视频时序动作定位方法，其特征在于，所述基于视频数据确定候选视频时序动作片段特征表示，包括：基于所述视频数据，利用时序和空间图网络提取视频单元的表示；根据二维时序矩阵构建视频时序动作片段候选集，并基于视频单元表示得到候选视频时序动作片段的特征表示。6.如权利要求5所述的基于时序‑空间图的跨模态视频时序动作定位方法，其特征在于，基于所述视频数据，利用时序和空间图网络提取视频单元的表示，包括：基于所述视频数据提取视频帧序列，对所述视频帧序列进行划分得到视频单元；对视频单元采用C3D网络，提取视频单元的全局表示；针对视频单元中的所有视频帧进行物体特征提取，得到物体表示集合；2CN113963304A权利要求书2/2页基于视频单元内所有物体表示构建时序图和空间图，并进行不同节点间的信息传播，得到时序图强化的视频单元表示和空间图强化的视频单元表示；将视频单元的全局表示、时序图强化的视频单元表示以及空间图强化的视频单元表示进行融合，得到最终的视频单元表示。7.如权利要求5所述的基于时序‑空间图的跨模态视频时序动作定位方法，其特征在于，所述根据二维时序矩阵构建视频时序动作片段候选集并提取候选视频时序动作片段特征表示，包括：依据最终的视频单元表示构建二维

相关资料

基于时序-空间图的跨模态视频时序动作定位方法及系统.pdf

本发明属于数据表示技术领域，提供了基于时序‑空间图的跨模态视频时序动作定位方法及系统，包括：接收视频数据和自然语言查询信息；基于自然语言查询信息确定自然语言查询特征表示；基于视频数据确定候选视频时序动作片段特征表示；基于所述候选视频时序动作片段特征表示和所述自然语言查询特征表示，预测所述候选视频时序动作片段的时序偏移量以及所述候选视频时序动作片段与自然语言查询信息的相关性；通过对相关性得分最高的候选视频时序动作片段进行偏移量矫正，得到最终目标视频时序动作片段定位结果。本发明上述两种特征表示预测对应候选视频

2023-07-24

552KB

一种时序-视觉提案图网络的时序动作检测方法.pdf

本发明涉及一种时序‑视觉提案图网络的时序动作检测方法，属于时序动作检测技术。该方法在提案图上并行使用时序图卷积网络和视觉图卷积网络：首先，为每个提案选择有价值的邻居提案，并将其构建为动作提案图，再采用图卷积网络根据邻居提案对分类的不同贡献从邻居提案中获取动作信息来构造一个视觉图卷积网络，采用提案特征的余弦相似度作为权重；在动作提案图上再构造一个与视觉图卷积网络并行的时序图卷积网络，通过提案之间的时序和视觉相关性聚合信息。在使用图卷积网络时，提出一种新的时序图卷积操作，该操作将邻居提案按照时序位置关系划分为

2023-06-02

1.6MB

一种基于时序卷积建模的视频动作检测方法.pdf

本发明提出一种基于时序卷积建模的视频动作检测方法，首先采用动作提案生成技术产生尽可能包含完整动作的提案片段；其次使用非极大值抑制配合加权IoU筛选出完整且重叠度高的提案，随后对提案进行稀疏采样得到指定数量的视频帧；采用深度网络模型提取视频帧的时空特征；然后对得到的帧级时空特征按演化模式划分成三个阶段，随后使用时序卷积对每个阶段的特征分别进行时序建模。最后使用分类器和回归器来预测动作类别和检测动作发生的时间区间。应用本发明可以克服提案的不完整性，同时最大限度的保留视频流的时序信息，进而更为精确的检测视频中的

2023-11-14

616KB

视频时序动作检测方法、系统、电子设备及存储介质.pdf

本公开的实施例提供一种视频时序动作检测方法、系统、电子设备及存储介质，包括：训练多模态检测模型；获取待检测视频的实际时序特征序列和实际文本信息；将实际时序特征序列和实际文本信息输入预先训练的多模态检测模型，得到实际预测特征距离图和实际起止点热力图；根据实际预测特征距离图，确定出检测视频的实际动作类别；根据起止点热力图，确定出实际动作类别在待检测视频中的起止位置。本公开的实施例采用VLM多模态预训练模型构建视频时序动作检测，并设计了一种关于动作的提示型文本描述库帮助检测模型的训练，可同时从视频的图像数据和文

2023-06-02

484KB

时序图生成方法与系统.pdf

本发明公开了一种时序图生成方法，包括：设置定时任务，所述定时任务用于采集预设的监控系统中的目标日志信息；执行所述定时任务以获取所述目标日志信息；解析所述目标日志信息，得到解析树；将所述解析树转换成链式结构；根据所述链式结构绘制目标时序图，并将所述目标时序图进行展示。本发明通过监控系统进行实时监控，得到日志信息，再通过定时任务采集日志信息中的目标日志信息，对目标日志信息进行解析，得到解析树，再将解析树转化为易于绘制时序图的链式结构，最后进行时序图的绘制，由于日志信息是实时获取的，可以对时序图进行实时绘制，解

2023-07-24

502KB