预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共31页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116010628A(43)申请公布日2023.04.25(21)申请号202310035982.7(22)申请日2023.01.10(71)申请人北京有竹居网络技术有限公司地址101299北京市平谷区林荫北街13号信息大厦802室(72)发明人曾雅文宝腾飞李文峰(74)专利代理机构中国贸促会专利商标事务所有限公司11038专利代理师宿小猛(51)Int.Cl.G06F16/435(2019.01)G06F16/483(2019.01)G06F16/45(2019.01)G06F16/41(2019.01)权利要求书3页说明书19页附图8页(54)发明名称数据处理、数据检索、检索模型训练方法和装置(57)摘要本公开涉及数据处理、数据检索、检索模型训练方法和装置。提出了一种数据处理方法,包括:获取基于参考数据之间的语义关联性所构建的多模态数据库,其中多模态数据库是基于通过对参考数据进行语义分析并按照分析出的语义特征将数据进行相关联而获得的共同语义组被构建的,以及基于所获取的多模态数据库,构建检索相关的特定数据的多模态实例集。CN116010628ACN116010628A权利要求书1/3页1.一种数据处理方法,包括:获取基于参考数据之间的语义关联性所构建的多模态数据库,其中多模态数据库是基于通过对参考数据进行语义分析并按照分析出的语义特征将数据进行相关联而获得的共同语义组被构建的,以及基于所获取的多模态数据库,构建检索相关的特定数据的多模态实例集。2.根据权利要求1所述的方法,其中,参考数据得自参考知识图谱和参考检索数据集,并且包括文本数据、图像数据、视频数据中的至少一者,和/或,其中,所述多模态数据库是基于参考知识图谱和参考检索数据集得到的多模态知识超图。3.根据权利要求1所述的方法,其中,多模态数据库的构建,包括:根据语义模式对参考数据进行聚类;将各类的参考数据进行语义分析,并基于分析出的语义特征进行归类,以获得该类下的共同语义组;由所获得的各类下的共同语义组构成多模态数据库。4.根据权利要求3所述的方法,其中,所述语义模式包括视觉相关语义模式、文本相关语义模式、属性相关语义模式中的至少一者。5.根据权利要求1所述的方法,其中,构建检索相关的特定数据的多模态实例集包括:从多模态数据库中获取与该特定数据语义相关联的特定数量的参考数据,并且基于所述特定数据和所述特定数量的参考数据构建所述多模态实例集。6.根据权利要求5所述的方法,其中,从多模态数据库中获取与该特定数据语义相关联的特定数量的参考数据包括:从多模态数据库中获取与该特定数据语义相关联的语义组,并且从所获取的语义组中选择特定数量的参考数据。7.根据权利要求5所述的方法,其中,从多模态数据库中获取与该特定数据语义相关联的特定数量的参考数据包括:从所述多模态数据库中获取与特定数据的相近度由高到低的前特定数量的参考数据。8.根据权利要求7所述的方法,其中,参考数据与特定数据的相近度是基于数据的在多模态数据库中的特征表示来计算的。9.根据权利要求1所述的方法,其中,构建检索相关的特定数据的多模态实例集进一步包括:基于所述特定数量的参考数据中的相似度来进行所述特定数量的参考数据的聚合。10.根据权利要求9所述的方法,其中,基于所述特定数量的数据中的相似度来进行所述特定数量的数据的聚合包括:基于数据的特征表示确定数据之间的相似度,并且将相似度超过特定阈值的数据的特征进行组合。11.根据权利要求1‑10中任一项所述的方法,其中,基于所构建的检索相关的特定数据的多模态实例集执行检索模型训练和/或数据检索。12.一种数据检索方法,包括:对于待检索输入,基于根据权利要求1‑11中任一项所述的方法来获取相对应的第一多2CN116010628A权利要求书2/3页模态实例集;对于候选检索集中的每一个候选检索结果,基于根据权利要求1‑11中任一项所述的方法来获取相对应的第二多模态实例集;基于第一多模态实例集与第二多模态实例集之间的相似度来确定特定数量的候选检索结果作为检索结果。13.根据权利要求12所述的方法,其中,所述特定数量的候选检索结果对应于与第一多模态实例集最相似的前特定数量的第二多模态实例集。14.一种检索模型训练方法,包括:对于第一训练样本,基于根据权利要求1‑11中任一项所述的方法来获取相对应的第一多模态实例集;对于第二训练样本,基于根据权利要求1‑11中任一项所述的方法来获取相对应的第二多模态实例集;利用第一多模态实例集与第二多模态实例集,基于损失函数执行检索模型训练。15.根据权利要求14所述的方法,其中,损失函数指示实例集中的正例对与负例对之前的语义距离。16.根据权利要求14所述的方法,其中,所述损失函数包括图匹