预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115937749A(43)申请公布日2023.04.07(21)申请号202211629881.4G06F40/289(2020.01)(22)申请日2022.12.19G06N3/0455(2023.01)(71)申请人重庆特斯联启智科技有限公司地址401329重庆市九龙坡区高新区金凤镇凤笙路21号1幢(72)发明人张睿(74)专利代理机构北京中知法苑知识产权代理有限公司11226专利代理师李明赵吉阳(51)Int.Cl.G06V20/40(2022.01)G06V40/20(2022.01)G06V10/82(2022.01)G06V10/764(2022.01)G06N3/08(2023.01)权利要求书2页说明书8页附图2页(54)发明名称视频时序动作检测方法、系统、电子设备及存储介质(57)摘要本公开的实施例提供一种视频时序动作检测方法、系统、电子设备及存储介质,包括:训练多模态检测模型;获取待检测视频的实际时序特征序列和实际文本信息;将实际时序特征序列和实际文本信息输入预先训练的多模态检测模型,得到实际预测特征距离图和实际起止点热力图;根据实际预测特征距离图,确定出检测视频的实际动作类别;根据起止点热力图,确定出实际动作类别在待检测视频中的起止位置。本公开的实施例采用VLM多模态预训练模型构建视频时序动作检测,并设计了一种关于动作的提示型文本描述库帮助检测模型的训练,可同时从视频的图像数据和文本数据中获取信息进行时序动作检测,准确率高,能更好地适应多种检测条件。CN115937749ACN115937749A权利要求书1/2页1.一种视频时序动作检测方法,其特征在于,所述方法包括:获取待检测视频的实际时序特征序列和实际文本信息;将所述实际时序特征序列和实际文本信息输入预先训练的多模态检测模型,得到实际预测特征距离图和实际起止点热力图;其中,所述预先训练的多模态检测模型是根据训练时序特征序列和预设的提示型文本描述库对自监督学习算法进行训练得到;根据所述实际预测特征距离图,确定出所述检测视频的实际动作类别;以及,根据所述起止点热力图,确定出所述实际动作类别在所述待检测视频中的起止位置。2.根据权利要求1所述的视频时序动作检测方法,其特征在于,所述预先训练的多模态检测模型采用以下步骤训练得到:建立动作类别的所述提示型文本描述库;其中,所述提示型文本描述库包括通用型语句集和详述型语句集;基于所述提示型文本描述库,得到分词组集;获取训练视频的训练时序特征序列;根据所述分词组集和所述训练时序特征序列通过自监督学习算法进行训练,得到所述多模态检测模型。3.根据权利要求2所述的视频时序动作检测方法,其特征在于,所述自监督学习算法包括编码模块、动作分类模块和动作时间边界匹配模块,所述编码模块包括视频编码器和文本编码器,所述动作分类模块包括视频MLP层和文本MLP层,所述动作时间边界匹配模块包括由MLP层构成的边界预测器;所述根据所述分词组集和所述训练时序特征序列通过自监督学习算法进行训练,得到所述多模态检测模型,包括:将所述训练时序特征序列和所述分词组集分别输入至所述视频编码器和所述文本编码器,分别得到视频编码和文本编码;将所述视频编码和所述文本编码分别输入至所述视频MLP层和所述文本MLP层,分别得到视频网络编码和文本网络编码;根据所述视频网络编码和所述文本网络编码,得到训练特征距离图;将所述视频编码输入至所述边界预测器,得到初始训练起止热力图;根据所述训练特征距离图和所述初始训练起止热力图,得到最终训练起止热力图。4.根据权利要求3所述的视频时序动作检测方法,其特征在于,所述根据所述训练特征距离图和所述初始训练起止热力图,得到最终训练起止热力图之后,所述方法还包括:根据所述训练特征距离图和所述最终训练起止热力图,更新所述多模态检测模型的参数。5.根据权利要求2所述的视频时序动作检测方法,其特征在于,所述基于所述提示型文本描述库,得到分词组集,包括:分别从所述通用型语句集和所述详述型语句集中获取多个通用型语句和多个详述型语句;将所述多个通用型语句和所述多个详述型语句对应组合,形成多个组合语句;对所述多个组合语句进行分词,得到分词组集。6.一种视频时序动作检测系统,其特征在于,所述系统包括:2CN115937749A权利要求书2/2页获取模块:用于获取待检测视频的实际时序特征序列和实际文本信息;输入模块:用于将所述实际时序特征序列和实际文本信息输入预先训练的多模态检测模型,得到实际预测特征距离图和实际起止点热力图;检测模块:用于根据所述实际预测特征距离图,确定出所述检测视频的实际动作类别;以及,根据所述起止点热力图,确定出所述实际动作类别在所述待检测视频中的起止位置。