预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115100573A(43)申请公布日2022.09.23(21)申请号202210832251.0(22)申请日2022.07.15(71)申请人北京有竹居网络技术有限公司地址101299北京市平谷区林荫北街13号信息大厦802室(72)发明人马航航杜正印袁泽寰卢靓妮(74)专利代理机构北京信远达知识产权代理有限公司11304专利代理师冯柳伟(51)Int.Cl.G06V20/40(2022.01)G06V10/774(2022.01)权利要求书2页说明书10页附图2页(54)发明名称一种视频识别方法、装置、存储介质及设备(57)摘要本申请公开了一种视频识别方法、装置、存储介质及设备,该方法包括:首先获取待识别的目标视频,并从中提取多模态特征和通用特征;然后将目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到目标视频的识别结果;其中,视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及根据置信度预先构建的目标损失函数训练得到的。可见,由于本申请是先通过近邻检索的方式更为简单、有效的查询到标签视频数据对应的伪标签视频数据,然后再利用根据置信度构建的目标损失函数来训练视频识别模型,并通过该模型识别得到目标视频的识别结果,从而提高了识别结果的准确性。CN115100573ACN115100573A权利要求书1/2页1.一种视频识别方法,其特征在于,所述方法包括:获取待识别的目标视频;从所述目标视频中提取所述目标视频的多模态特征和通用特征;将所述目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到所述目标视频的识别结果;其中,所述视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;所述目标损失函数是根据所述置信度确定的。2.根据权利要求1所述的方法,其特征在于,所述视频识别模型的构建方式如下:获取标签样本视频;并提取所述标签样本视频的样本多模态特征;通过近邻检索的方式,根据所述标签样本视频的样本多模态特征,从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频;提取所述标签样本视频和伪标签样本视频的样本通用特征;根据所述伪标签样本视频的置信度,构建目标损失函数;利用所述标签样本视频和伪标签样本视频对应的样本多模态特征、样本通用特征和所述目标损失函数,以及所述标签样本对应的视频识别标签对初始视频识别模型进行训练,生成所述视频识别模型。3.根据权利要求2所述的方法,其特征在于,所述通过近邻检索的方式,根据所述标签样本视频的样本多模态特征,从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频,包括:提取所述无标签样本视频的多模态特征;计算所述标签样本视频的样本多模态特征与所述无标签样本视频的多模态特征的相似度,作为所述无标签样本视频对应的置信度,并将高于预设相似度阈值的置信度对应的无标签样本视频作为伪标签样本视频。4.根据权利要求2所述的方法,其特征在于,所述根据所述伪标签样本视频的置信度,构建目标损失函数,包括:利用所述伪标签样本视频的置信度,对所述伪标签样本视频对应的损失进行加权求和,构建得到目标损失函数。5.根据权利要求2‑4任一项所述的方法,其特征在于,所述方法还包括:获取验证视频;从所述验证视频中提取所述验证视频的验证多模态特征和验证通用特征;将所述验证多模态特征和验证通用特征输入所述视频识别模型,获得所述验证视频的预测识别结果;当所述验证视频的预测识别结果与所述验证验证视频对应的识别标记结果不一致时,将所述验证视频重新作为所述标签样本视频,对所述视频识别模型进行更新。6.根据权利要求1‑4任一项所述的方法,其特征在于,所述多模态特征包括文本特征、图像特征、声学特征中的至少一项特征。7.根据权利要求1‑4任一项所述的方法,其特征在于,所述目标损失函数是根据所述置信度确定的交叉熵损失函数。2CN115100573A权利要求书2/2页8.一种视频识别装置,其特征在于,所述装置包括:第一获取单元,用于获取待识别的目标视频;第一提取单元,用于从所述目标视频中提取所述目标视频的多模态特征和通用特征;识别单元,用于将所述目标视频的多模态特征和通用特征输入至预先构建的视频识别模型,识别得到所述目标视频的识别结果;其中,所述视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据,以及预先构建的目标损失函数训练得到的;所述目标损失函数是根据所述置信度确定的。9.一种视频识别设备,其特征在于,包括:处理器、存储器、系统总线;所述处理器以及所述存储器通过