预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115953714A(43)申请公布日2023.04.11(21)申请号202211653534.5(22)申请日2022.12.21(71)申请人南京理工大学地址210094江苏省南京市孝陵卫200号(72)发明人项欣光张振琦舒祥波陶叔银(74)专利代理机构南京理工大学专利中心32203专利代理师陈鹏(51)Int.Cl.G06V20/40(2022.01)G06V30/148(2022.01)G06V40/20(2022.01)G06V10/74(2022.01)G06V20/70(2022.01)G06V10/82(2022.01)权利要求书2页说明书5页附图2页(54)发明名称基于多模态语义嵌入的人体动作识别方法及系统(57)摘要本发明涉及一种基于多模态语义嵌入的人体动作识别方法及系统,该方法包括:构建网络模型,其中包括一个用于提取视频时空特征的视频编码器和一个用于提取视频标签文本特征的文本编码器;提取视频中的时空特征以及视频标签中的文本特征,分别将时空特征和文本特征映射到一个公共空间;通过相似度计算模块,计算出两种模态之间的对称相似性得分;之后利用Kullback‑Leibler(KL)散度计算对比损失,对网络模型进行优化,使成对视频和标签表示相互靠近;利用所述优化后的模型对人体动作视频进行预测。本发明通过引入文本模态的信息,将动作识别建模为视频文本多模态对比学习问题,增强了语义性,提高了动作识别的精确度。CN115953714ACN115953714A权利要求书1/2页1.一种基于多模态语义嵌入的人体动作识别方法,其特征在于,包括:构建网络模型,其中包括一个用于提取视频时空特征的视频编码器和一个用于提取视频标签文本特征的文本编码器;所述视频编码器和文本编码器均为深度神经网络模型;提取视频中的时空特征以及视频标签中的文本特征,分别将时空特征和文本特征映射到同一个公共空间;通过相似度计算模块,计算出两种模态之间的对称相似性得分;利用Kullback‑Leibler散度计算对比损失,对网络模型进行优化,使成对视频和标签表示相互靠近,得到优化后的网络模型;利用所述优化后的网络模型对人体动作视频进行预测。2.根据权利要求1所述的一种基于多模态语义嵌入的人体动作识别方法,其特征在于,所述提取视频中的时空特征以及视频标签中的文本特征,分别将时空特征和文本特征映射到一个公共空间,之前还包括:获取视频‑标签对数据;对视频及标签进行预处理;所述预处理包括:随机增强以及文本提示。3.根据权利要求1所述的一种基于多模态语义嵌入的人体动作识别方法,其特征在于,所述提取视频中的时空特征以及视频标签中的文本特征,分别将时空特征和文本特征映射到一个公共空间,具体包括:利用所述视频编码器提取视频的时空特征;利用所述文本编码器提取视频标签的文本特征;将所述时空特征和文本特征分别映射到同一个公共空间。4.根据权利要求1所述的一种基于多模态语义嵌入的人体动作识别方法,其特征在于,所述通过相似度计算模块,计算出两种模态之间的对称相似性得分,具体包括:根据视频的时空特征和视频标签的文本特征,利用向量的余弦相似度确定二者的相似性得分。5.根据权利要求1所述的一种基于多模态语义嵌入的人体动作识别方法,其特征在于,所述利用Kullback‑Leibler散度计算对比损失,对网络模型进行优化,使成对视频和标签表示相互靠近,得到优化后的网络模型,具体包括:根据所述相似度得分构建出视频‑文本以及文本‑视频对之间的相似性得分矩阵;计算相似度得分矩阵与真实标签之间的对比损失,并对网络模型进行优化。6.一种基于多模态语义嵌入的人体动作识别系统,其特征在于,包括:模型构建模块,用于构建深度神经网络模型;所述深度神经网络模型包括视频编码器和文本编码器;特征提取模块,用于利用深度神经网络模型对视频以及视频标签进行特征提取,得到特征数据;所述特征数据包括视频时空特征以及标签的文本特征;相似度计算模块,用于将所述时空特征和文本特征分别映射到一个公共空间,确定视频和文本之间的相似度分数;模型优化模块,用于利用所述视频时空特征以及标签文本特征对深度神经网络进行优化,得到优化后的神经网络模型;预测模块,主要利用优化后的深度神经网络对待预测视频进行动作预测。2CN115953714A权利要求书2/2页7.根据权利要求6所述的一种基于多模态语义嵌入的人体动作识别系统,其特征在于,所述特征提取模块,具体包括:时空特征提取单元,用于利用深度神经网络提取视频中的所展示的动作的时间与空间特征;文本特征提取单元,用于利用深度神经网络提取视频标签中的文本特征。8.根据权利要求6所述的一种基于多模态语义嵌入的人体动作识别系统,其特征在于,所述相似