预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114372169A(43)申请公布日2022.04.19(21)申请号202111485056.7(22)申请日2021.12.07(71)申请人厦门市美亚柏科信息股份有限公司地址361000福建省厦门市软件园二期观日路12号102-402单元(72)发明人姚灿荣高志鹏张光斌赵建强黄仁裕吴厚阔俞钰(74)专利代理机构厦门市精诚新创知识产权代理有限公司35218代理人赵薇(51)Int.Cl.G06F16/583(2019.01)G06V20/40(2022.01)G06K9/62(2022.01)G06V10/74(2022.01)权利要求书2页说明书7页附图3页(54)发明名称一种同源视频检索的方法、装置以及存储介质(57)摘要本发明公开了一种同源视频检索方法、装置以及存储介质。所述方法包括:对所述视频库中的所有视频进行处理,确定出各视频的视频特征序列;对所述待检索视频进行处理,确定出待检索视频的视频特征序列;基于所述待检索视频的视频特征序列在视频库中查找,若在视频库中找到某一段视频与待检索视频的视频特征序列的相似度达到预定条件,则表明检索到所述待检索视频,否则未检索到所述待检索视频。本发明提供的一种同源视频检索方法和装置,能够实现对同源视频的高精度检索,对经过主流的视频编辑、特效渲染、复合转码等方法生成的同源视频能保持较高的检索精确度。CN114372169ACN114372169A权利要求书1/2页1.一种同源视频检索的方法,用于确定待检索视频是否为视频库中视频的同源视频,其特征在于,包括步骤:S1,对所述视频库中的所有视频进行处理,得到所述所有视频的图像帧序列,利用训练好的图像特征提取模型对所述图像帧序列进行处理,确定出各视频的视频特征序列;S2,对所述待检索视频进行处理,得到所述待检索视频的图像帧序列,利用训练好的图像特征提取模型对所述待检索视频的图像帧序列进行处理,确定出待检索视频的视频特征序列;S3,基于所述待检索视频的视频特征序列在视频库中查找,若在视频库中找到某一段视频与待检索视频的视频特征序列的相似度达到预定条件,则表明检索到所述待检索视频,否则未检索到所述待检索视频;其中,所述训练好的图像特征提取模型是通过如下步骤进行训练的:收集视频样本;根据转场效果对所收集的视频样本中的每一个进行切分,并对切分后的视频进行转码,生成具有多种分辨率、多种码率、多种帧率、和/或多种编码格式的同源视频样本;通过解码抽帧获取所述同源视频样本的原始图像数据集;对所述原始图像数据集进行随机变换获得同源图像数据集;利用所述同源图像数据集来训练图像特征提取模型。2.根据权利要求1所述的方法,其特征在于,对所述视频库中的所有视频进行处理、以及对所述检索视频进行处理,均包括步骤:S21,对视频V转码,得到预先设定格式、码率和帧率的转码视频Vt;tS22,对转码视频V抽取图像帧,生成视频V的一组长度为n的图像帧序列P={P0,P1,...,Pn‑1},其中,n为大于0的自然数;S23,将所述图像帧序列P的每一个图像帧Pk输入到预先训练好的图像特征提取模型中,通过所述图像特征提取模型获取图像帧Pk对应的图像特征fk,生成视频V的视频特征序列F={f0,f1,...,fn‑1},其中,0≤k<n。3.根据权利要求1所述的方法,其特征在于,通过以下方式训练图像特征提取模型:S31,对原始图像数据集的所有原始图像标注类标签,对同源图像数据集的所有同源图像标注为与原始图像相应的类标签;S32,基于所述同源图像数据集和所述同源图像的类标签,训练图像特征提取模型;其中,训练过程包括归一化输入图像,结合度量学习和交叉熵损失,使用余弦距离测量同源图像的图像特征的空间距离,对空间距离进行归一化后得到图像的相似度,越相似的同源图像的相似度越接近1,非同源图像之间的相似度越偏向于0。4.根据权利要求1所述的方法,其特征在于,所述随机变换至少包括以下一种或多种:裁剪、加文字、打马赛克、添加黑框、美化、画中画、拼接、上下加黑边、上下翻转、左右翻转、上下左右同时翻转、行列变换、视频帧压缩、视频帧切片、灰度变换、尺度变换、运动模糊、高斯模糊、仿射变换、中值模糊、亮度扰动、色度扰动、饱和度扰动、对比度增强、锐化、浮雕。5.根据权利要求1所述的方法,其特征在于,所述图像特征提取模型的实现方式具体为基于残差网络实现,其中,所述图像特征提取模型的输入图像的宽度为224像素,高度为2242CN114372169A权利要求书2/2页像素,每个像素由3个字节组成,所述残差网络的全连接层的输出维度为128*样本类别数,所述残差网络的主干网络包含了4个残差块,4个残差块分别包含了[3,30,48,8]层的二维卷