一种视频识别方法、装置、存储介质及设备-豆柴文库

一种视频识别方法、装置、存储介质及设备.pdf

2023-07-21

10金币

541KB

15页

Jo****34

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115100573A(43)申请公布日2022.09.23(21)申请号202210832251.0(22)申请日2022.07.15(71)申请人北京有竹居网络技术有限公司地址101299北京市平谷区林荫北街13号信息大厦802室(72)发明人马航航杜正印袁泽寰卢靓妮(74)专利代理机构北京信远达知识产权代理有限公司11304专利代理师冯柳伟(51)Int.Cl.G06V20/40(2022.01)G06V10/774(2022.01)权利要求书2页说明书10页附图2页(54)发明名称一种视频识别方法、装置、存储介质及设备(57)摘要本申请公开了一种视频识别方法、装置、存储介质及设备，该方法包括：首先获取待识别的目标视频，并从中提取多模态特征和通用特征；然后将目标视频的多模态特征和通用特征输入至预先构建的视频识别模型，识别得到目标视频的识别结果；其中，视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据，以及根据置信度预先构建的目标损失函数训练得到的。可见，由于本申请是先通过近邻检索的方式更为简单、有效的查询到标签视频数据对应的伪标签视频数据，然后再利用根据置信度构建的目标损失函数来训练视频识别模型，并通过该模型识别得到目标视频的识别结果，从而提高了识别结果的准确性。CN115100573ACN115100573A权利要求书1/2页1.一种视频识别方法，其特征在于，所述方法包括：获取待识别的目标视频；从所述目标视频中提取所述目标视频的多模态特征和通用特征；将所述目标视频的多模态特征和通用特征输入至预先构建的视频识别模型，识别得到所述目标视频的识别结果；其中，所述视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据，以及预先构建的目标损失函数训练得到的；所述目标损失函数是根据所述置信度确定的。2.根据权利要求1所述的方法，其特征在于，所述视频识别模型的构建方式如下：获取标签样本视频；并提取所述标签样本视频的样本多模态特征；通过近邻检索的方式，根据所述标签样本视频的样本多模态特征，从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频；提取所述标签样本视频和伪标签样本视频的样本通用特征；根据所述伪标签样本视频的置信度，构建目标损失函数；利用所述标签样本视频和伪标签样本视频对应的样本多模态特征、样本通用特征和所述目标损失函数，以及所述标签样本对应的视频识别标签对初始视频识别模型进行训练，生成所述视频识别模型。3.根据权利要求2所述的方法，其特征在于，所述通过近邻检索的方式，根据所述标签样本视频的样本多模态特征，从无标签样本视频中查询到置信度高于预设阈值的伪标签样本视频，包括：提取所述无标签样本视频的多模态特征；计算所述标签样本视频的样本多模态特征与所述无标签样本视频的多模态特征的相似度，作为所述无标签样本视频对应的置信度，并将高于预设相似度阈值的置信度对应的无标签样本视频作为伪标签样本视频。4.根据权利要求2所述的方法，其特征在于，所述根据所述伪标签样本视频的置信度，构建目标损失函数，包括：利用所述伪标签样本视频的置信度，对所述伪标签样本视频对应的损失进行加权求和，构建得到目标损失函数。5.根据权利要求2‑4任一项所述的方法，其特征在于，所述方法还包括：获取验证视频；从所述验证视频中提取所述验证视频的验证多模态特征和验证通用特征；将所述验证多模态特征和验证通用特征输入所述视频识别模型，获得所述验证视频的预测识别结果；当所述验证视频的预测识别结果与所述验证验证视频对应的识别标记结果不一致时，将所述验证视频重新作为所述标签样本视频，对所述视频识别模型进行更新。6.根据权利要求1‑4任一项所述的方法，其特征在于，所述多模态特征包括文本特征、图像特征、声学特征中的至少一项特征。7.根据权利要求1‑4任一项所述的方法，其特征在于，所述目标损失函数是根据所述置信度确定的交叉熵损失函数。2CN115100573A权利要求书2/2页8.一种视频识别装置，其特征在于，所述装置包括：第一获取单元，用于获取待识别的目标视频；第一提取单元，用于从所述目标视频中提取所述目标视频的多模态特征和通用特征；识别单元，用于将所述目标视频的多模态特征和通用特征输入至预先构建的视频识别模型，识别得到所述目标视频的识别结果；其中，所述视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据，以及预先构建的目标损失函数训练得到的；所述目标损失函数是根据所述置信度确定的。9.一种视频识别设备，其特征在于，包括：处理器、存储器、系统总线；所述处理器以及所述存储器通过

相关资料

一种视频识别方法、装置、存储介质及设备.pdf

本申请公开了一种视频识别方法、装置、存储介质及设备，该方法包括：首先获取待识别的目标视频，并从中提取多模态特征和通用特征；然后将目标视频的多模态特征和通用特征输入至预先构建的视频识别模型，识别得到目标视频的识别结果；其中，视频识别模型是根据预先获取的标签视频数据和通过近邻检索的方式查询到的置信度高于预设阈值的伪标签视频数据，以及根据置信度预先构建的目标损失函数训练得到的。可见，由于本申请是先通过近邻检索的方式更为简单、有效的查询到标签视频数据对应的伪标签视频数据，然后再利用根据置信度构建的目标损失函数来训

2023-07-21

541KB

视频识别方法、装置、设备以及存储介质.pdf

本申请公开了一种视频识别方法、装置、设备以及存储介质，属于计算机技术领域。通过本申请实施例提供的技术方案，能够对多个视频帧特征进行编号，得到的多个特征编号就能够表示对应的视频帧特征。在编号过程中，结合了视频帧特征之间的相似度，也即是若两个视频帧特征的编号相同，也就能够表示两个视频帧特征之间的相似度较高，进一步就能够表示两个视频帧特征分别对应的两个视频帧之间的相似度较高。采用视频帧特征的编号来确定视频的第一重复度信息，就快速反映视频中视频片段的重复情况。当第一重复信息符合目标条件时，就能够将视频确定为目标类

2023-07-25

1.1MB

视频语音识别方法、装置、设备和存储介质.pdf

本申请提出一种视频语音识别方法、装置、设备和存储介质，涉及语音识别技术领域其中，方法，包括：对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，通过视频的图像中的文本识别结果辅助视频语音识别，

2023-07-25

824KB

一种视频片头片尾识别方法、装置、设备及可读存储介质.pdf

本发明提供一种视频片头片尾识别方法、装置、设备及可读存储介质，涉及视频识别技术领域。该方法包括：根据目标视频的识别信息，获取目标视频发生场景切换的第一时间范围；其中，识别信息包括声音、图像以及文字识别信息中的至少一项；对第一时间范围中第一时刻之前的第一时长内的多帧第一图像与第一时刻之后的第一时长内的多帧第二图像进行匹配，获取第一匹配结果；对第一时间范围中第一时刻之前的第一时长内的第一声音数据与第一时刻之后的第一时长内的第二声音数据进行匹配，获取第二匹配结果；根据第一匹配结果和第二匹配结果，获取目标视频的片

2023-07-21

555KB

视频识别方法、装置、电子设备及存储介质.pdf

本申请公开了一种视频识别方法、装置、电子设备及存储介质。方法包括：确定第一视频的m个第一图像帧中的每个第一图像帧对应的n个第一特征向量；第一特征向量表征对应的第一图像帧的空间特征向量；从m个第一图像帧对应的第一特征向量中提取得到第二特征向量，并通过全连接层处理第二特征向量，得到第三特征向量；第二特征向量表征m个第一图像帧对应的时序特征向量；基于第三特征向量确定第一视频对应的第一对象和第二对象之间的第一行为类型；第三特征向量中的每个元素对应表征一种行为类型的概率；在第一行为类型是设定的行为类型的情况下，基于

2023-06-14

647KB