预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115934724A(43)申请公布日2023.04.07(21)申请号202211633718.5G06F16/532(2019.01)(22)申请日2022.12.19G06F16/732(2019.01)(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人付琰许顺楠陈亮辉范斌(74)专利代理机构北京易光知识产权代理有限公司11596专利代理师王英王姗姗(51)Int.Cl.G06F16/22(2019.01)G06F16/28(2019.01)G06F18/22(2023.01)G06F16/31(2019.01)G06F16/33(2019.01)权利要求书3页说明书11页附图8页(54)发明名称构建数据库索引的方法、检索方法、装置、设备及介质(57)摘要本公开提供了构建数据库索引的方法、检索方法、装置、设备及介质,涉及计算机技术领域,尤其涉及大数据、人工智能、数据检索等技术领域。具体实现方案为:获取待入库向量;从数据库中筛选出与待入库向量的相似度最高的向量簇,得到待加入簇;将待入库向量添加到待加入簇的倒排索引中;在待加入簇与待入库向量之间的相似度低于第一阈值的情况下,在待加入簇之外的候选向量簇中筛选出至少一个补充簇;将待入库向量分别添加到每个补充簇的倒排索引中。基于本公开实施例提供的方式可以提高向量的召回率,提高检索效率。CN115934724ACN115934724A权利要求书1/3页1.一种构建数据库索引的方法,包括:获取待入库向量;从数据库中筛选出与所述待入库向量的相似度最高的向量簇,得到待加入簇;将所述待入库向量添加到所述待加入簇的倒排索引中;在所述待加入簇与所述待入库向量之间的相似度低于第一阈值的情况下,在所述待加入簇之外的候选向量簇中筛选出至少一个补充簇;将所述待入库向量分别添加到每个补充簇的倒排索引中。2.根据权利要求1所述的方法,其中,在所述待加入簇之外的候选向量簇中筛选出至少一个补充簇,包括:在所述待加入簇之外的候选向量簇中,筛选出满足预设条件的候选向量簇,作为补充簇;所述预设条件包括以下中的至少一种:所述待入库向量与所述候选向量簇之间的相似度大于第二阈值;所述第二阈值大于所述第一阈值;所述待入库向量在所述候选向量簇的簇半径范围内。3.根据权利要求2所述的方法,所述预设条件还包括:候选向量簇与指定簇之间的相似度不高于第三阈值;所述指定簇包括所述待加入簇和已满足所述预设条件的补充簇。4.根据权利要求2或3所述的方法,还包括基于以下方法确定所述待入库向量与所述候选向量簇之间的相似度:获取所述候选向量簇的簇代表向量;确定所述待入库向量和所述簇代表向量之间的相似度,得到所述待入库向量与所述候选向量簇之间的相似度。5.根据权利要求2或3所述的方法,还包括基于以下方法生成所述候选向量簇的簇半径:基于半径学习网络的可学习参数,确定所述候选向量簇的候选半径;基于所述候选半径、所述候选向量簇中各向量以及所述候选向量簇的簇代表向量,确定损失值;基于所述损失值调整所述可学习参数,在所述半径学习网络满足训练收敛条件的情况下,基于调整后的可学习参数确定出所述候选向量簇的簇半径。6.根据权利要求1‑5中任一项所述的方法,还包括:针对所述待加入簇和所述补充簇中任一目标簇,在所述目标簇满足拆分条件的情况下,将所述目标簇拆分为多个向量簇;对拆分得到的每个向量簇分别构建倒排索引。7.一种检索方法,应用于如权利要求1‑6中任一项所述的方法构建的索引,包括:获取查询向量;基于所述查询向量与向量簇之间的相似度,从数据库中筛选出第一指定数量的向量簇作为待查询簇;基于各待查询簇的倒排索引,确定各待查询簇包含的向量;对各待查询簇包含的向量进行去重后,得到待查询向量集合;2CN115934724A权利要求书2/3页从所述待查询向量集合中筛选出与所述查询向量匹配的向量。8.一种构建数据库索引的装置,包括:第一获取模块,用于获取待入库向量;第一筛选模块,用于从数据库中筛选出与所述待入库向量的相似度最高的向量簇,得到待加入簇;第一添加模块,用于将所述待入库向量添加到所述待加入簇的倒排索引中;第二筛选模块,用于在所述待加入簇与所述待入库向量之间的相似度低于第一阈值的情况下,在所述待加入簇之外的候选向量簇中筛选出至少一个补充簇;第二添加模块,用于将所述待入库向量分别添加到每个补充簇的倒排索引中。9.根据权利要求8所述的装置,其中,所述第二筛选模块,用于:在所述待加入簇之外的候选向量簇中,筛选出满足预设条件的候选向量簇,作为补充簇;所述预设条件包括以下中的至少一种:所述待入库向量与所述候选向量簇之间的相似度大于第二阈值;所述第二阈值大于所述第一