预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114282049A(43)申请公布日2022.04.05(21)申请号202111566652.8G06F16/36(2019.01)(22)申请日2021.12.20G06V20/40(2022.01)G06V20/62(2022.01)(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人贺峰汪琦冯知凡柴春光朱勇(74)专利代理机构北京品源专利代理有限公司11332代理人李彩玲(51)Int.Cl.G06F16/73(2019.01)G06F16/783(2019.01)G06F40/289(2020.01)G06F40/30(2020.01)权利要求书3页说明书12页附图7页(54)发明名称一种视频检索方法、装置、设备及存储介质(57)摘要本公开提供了一种视频检索方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及深度学习、知识图谱和计算机视觉技术领域,可用于视频检索场景。具体实现方案为:确定视频检索请求中检索文本的第一文本特征表示;根据候选视频的字幕信息,确定候选视频的第二文本特征表示;根据所述候选视频的图像信息,确定所述候选视频的视觉特征表示;根据所述第一文本特征表示、所述候选视频的视觉特征表示和第二文本特征表示,从所述候选视频中选择目标视频。通过上述技术方案,能够高效且精准地从海量视频中获取到用户所需视频。CN114282049ACN114282049A权利要求书1/3页1.一种视频检索方法,包括:确定视频检索请求中检索文本的第一文本特征表示;根据候选视频的字幕信息,确定候选视频的第二文本特征表示;根据所述候选视频的图像信息,确定所述候选视频的视觉特征表示;根据所述第一文本特征表示、所述候选视频的视觉特征表示和第二文本特征表示,从所述候选视频中选择目标视频。2.根据权利要求1所述的方法,其中,所述确定视频检索请求中检索文本的第一文本特征表示,包括:对所述视频检索请求中检索文本进行实体识别,得到所述检索文本中的第一实体;对所述第一实体进行实体链指,得到所述第一实体的描述信息;对所述检索文本和所述第一实体的描述信息进行编码,得到所述第一文本特征表示。3.根据权利要求1所述的方法,其中,所述根据候选视频的字幕信息,确定候选视频的第二文本特征表示,包括:对所述候选视频的字幕信息进行实体识别,得到所述字幕信息中的第二实体;对所述第二实体进行实体链指,得到所述第二实体的描述信息;对所述字幕信息和所述第二实体的描述信息进行编码,得到所述候选视频的第二文本特征表示。4.根据权利要求1所述的方法,其中,所述根据所述候选视频的图像信息,确定所述候选视频的视觉特征表示,包括:从所述候选视频中提取关键帧,并对所述关键帧的图像信息进行编码,得到所述候选视频的视觉特征表示。5.根据权利要求1所述的方法,其中,所述根据所述第一文本特征表示、所述候选视频的视觉特征表示和第二文本特征表示,从所述候选视频中选择目标视频,包括:根据所述第一文本特征表示和所述第二文本特征表示之间的相似度,以及所述第一文本特征表示和所述视觉特征表示之间的相似度,确定所述候选视频与所述检索文本之间的第一相似度;根据所述候选视频与所述检索文本之间的第一相似度,从所述候选视频中选择目标视频。6.根据权利要求5所述的方法,其中,所述根据所述第一文本特征表示和所述第二文本特征表示之间的相似度,以及所述第一文本特征表示和所述视觉特征表示之间的相似度,确定所述候选视频与所述检索文本之间的第一相似度,包括:对所述候选视频进行人物识别,得到所述候选视频中的人物信息;根据所述候选视频中的人物信息,以及所述检索文本关联的人物信息,确定所述候选视频与所述检索文本之间的第二相似度;根据所述第一文本特征表示和所述第二文本特征表示之间的相似度,所述第一文本特征表示和所述视觉特征表示之间的相似度,以及所述第二相似度,确定所述候选视频与所述检索文本之间的第一相似度。7.根据权利要求5所述的方法,其中,所述根据所述第一文本特征表示和所述第二文本特征表示之间的相似度,以及所述第一文本特征表示和所述视觉特征表示之间的相似度,2CN114282049A权利要求书2/3页确定所述候选视频与所述检索文本之间的第一相似度,包括:从所述检索文本中提取关键词,并确定所述关键词在所述候选视频中的目标出现次数;根据所述目标出现次数,以及所述候选视频中词语的最大出现次数和最小出现次数,确定所述候选视频与所述检索文本之间的第三相似度;根据所述第一文本特征表示和所述第二文本特征表示之间的相似度,所述第一文本特征表示和所述视觉特征表示之间的相似度,以及所述第三相似度,确定所述候选视频与所述检索文本之