预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共42页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115033739A(43)申请公布日2022.09.09(21)申请号202210618907.9G06V10/74(2022.01)(22)申请日2022.06.01G06V10/80(2022.01)G06V10/82(2022.01)(71)申请人北京百度网讯科技有限公司G06K9/62(2022.01)地址100085北京市海淀区上地十街10号G06N3/04(2006.01)百度大厦二层G06N3/08(2006.01)(72)发明人杨敏朱若琳(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201专利代理师罗岚(51)Int.Cl.G06F16/783(2019.01)G06F16/732(2019.01)G06F16/75(2019.01)G06F16/9535(2019.01)G06V20/40(2022.01)权利要求书6页说明书25页附图10页(54)发明名称搜索方法、模型训练方法、装置、电子设备和介质(57)摘要本公开提供了一种搜索方法、模型训练方法、装置、电子设备和介质,涉及人工智能技术领域,具体为深度学习、图像处理、计算机视觉技术领域,可应用于视频处理等场景。具体实现方案为:获取对多个候选视频分别进行特征提取得到的局部特征和语义特征,局部特征用于表征对应候选视频的风格、外观中的至少一项,语义特征用于表征对应候选视频中内容主体所属的类别;对局部特征和语义特征进行特征融合,得到融合特征。由此,在根据文本搜索视频的场景下,同时基于各候选视频的语义特征(即深层特征)和局部特征(即浅层特征),从各候选视频中确定与搜索文本匹配的目标视频,可提升确定结果的可靠性,从而使得视频搜索结果能够满足用户的实际搜索需求。CN115033739ACN115033739A权利要求书1/6页1.一种搜索方法,包括:获取搜索文本以及多个候选视频;获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征,其中,所述局部特征用于表征对应候选视频的风格、外观中的至少一项,所述语义特征用于表征对应候选视频中内容主体所属的类别;对所述局部特征和所述语义特征进行特征融合,以得到融合特征;根据所述搜索文本的特征与各所述候选视频的融合特征之间的相关性,从所述多个候选视频中确定与所述搜索文本匹配的目标视频。2.根据权利要求1所述的方法,其中,所述获取对所述多个候选视频分别进行特征提取得到的局部特征和语义特征,包括:将所述多个候选视频中任意的一个作为输入视频,并输入视频特征提取网络,以得到所述输入视频的语义特征;将所述输入视频中的至少一个视频帧输入图像特征提取网络,以得到所述输入视频中至少一个视频帧的语义特征;将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各所述视频帧的局部特征;将所述输入视频输入第二局部分支网络,以得到所述输入视频的局部特征。3.根据权利要求2所述的方法,其中,所述将所述至少一个视频帧中的各视频帧分别输入第一局部分支网络,以得到各所述视频帧的局部特征,包括:对任一所述视频帧,根据各像素点在多个色彩通道上的像素值,生成第一数组;其中,所述第一数组中的元素为像素值,各所述元素具有指示所属色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;采用滑动窗口将所述第一数组,划分为多个第一子数组,其中,相邻第一子数组之间存在交叠元素;采用所述第一局部分支网络的特征提取层分别对各所述第一子数组进行特征提取;采用所述第一局部分支网络的窗口合并层,将各所述第一子数组的特征进行融合;将所述融合后的特征输入所述第一局部分支网络的输出层,以得到所述视频帧的局部特征。4.根据权利要求2所述的方法,其中,所述将所述输入视频输入第二局部分支网络,以得到所述输入视频的局部特征,包括:根据所述输入视频中各视频帧,生成第二数组;其中,所述第二数组中的元素为像素值,各所述元素具有用于指示像素值所属视频帧和色彩通道的第一维度,指示所属像素点的行位置的第二维度,以及指示所属像素点的列位置的第三维度;采用滑动窗口将所述第二数组,划分为多个第二子数组,其中,相邻第二子数组之间存在交叠元素;采用所述第二局部分支网络的特征提取层分别对各所述第二子数组进行特征提取;采用所述第二局部分支网络的窗口合并层,将各所述第二子数组的特征进行融合;将所述融合后的特征输入所述第二局部分支网络的输出层,以得到所述输入视频的局部特征。2CN115033739A权利要求书2/6页5.根据权利要求3或4所述的方法,其中,所述特征提取层包括至少一层编码层,所述编码层包括多头自注意力模块MSA和前馈网络FFN。6.根据权利要求3或4所述的方法,其中,所述输出层采用分段线性