预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共29页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113656650A(43)申请公布日2021.11.16(21)申请号202110936446.5(22)申请日2021.08.16(71)申请人智慧芽信息科技(苏州)有限公司地址215000江苏省苏州市苏州工业园区新平街388号腾飞科技园23幢9层901室(72)发明人方艳王超超王为磊屠昶旸张济徽(74)专利代理机构北京林达刘知识产权代理事务所(普通合伙)11277代理人刘新宇(51)Int.Cl.G06F16/901(2019.01)G06K9/62(2006.01)G06N20/00(2019.01)权利要求书3页说明书19页附图6页(54)发明名称数据融合方法及装置、电子设备和存储介质(57)摘要本公开涉及一种数据融合方法及装置、电子设备和存储介质,所述方法包括:对第一数据库构建索引,得到索引表;依次从多个待融合数据库中选择第二数据库,执行以下操作,得到融合后的第一数据库:以第二数据库中的目标数据中、与第一数据库的索引字段对应的内容作为索引条件,根据第一数据库的索引表搜索与目标数据对应的候选数据,得到多个候选数据组合;在确定多个候选数据组合的一个或多个候选数据组合中的目标数据与候选数据为不同数据的情况下,将一个或多个候选数据组合中的目标数据融合到第一数据库,更新所述索引表。本公开实施例可以实现对不同数据源的数据库的数据进行去重,快速、高效地融合第一数据库及多个待融合数据库。CN113656650ACN113656650A权利要求书1/3页1.一种数据融合方法,其特征在于,所述方法包括:对第一数据库构建索引,得到索引表,所述索引表包括多个索引字段及与各个索引字段对应的索引数据;依次从多个待融合数据库中选择第二数据库,执行以下操作,得到融合后的第一数据库:以第二数据库中的目标数据中、与所述第一数据库的索引字段对应的内容作为索引条件,根据所述第一数据库的索引表搜索与所述目标数据对应的候选数据,得到多个候选数据组合,所述候选数据组合包括目标数据及相应的候选数据;根据训练好的数据分析模型确定所述候选数据组合中的目标数据与候选数据是否为相同数据,在确定所述多个候选数据组合的一个或多个候选数据组合中的目标数据与候选数据为不同数据的情况下,将所述一个或多个候选数据组合中的目标数据融合到所述第一数据库,更新所述索引表。2.根据权利要求1所述的方法,其特征在于,所述对第一数据库构建索引,包括:根据预设字段创建所述第一数据库中各个基础数据的索引字段;根据所述第一数据库中各个基础数据确定各索引字段的索引数据;其中,所述索引数据包括基础数据中与各索引字段对应的内容,对应的内容与所述基础数据相关联;或者所述索引数据包括基础数据中与各索引字段对应的内容、以及所述基础数据。3.根据权利要求1或2所述的方法,其特征在于,利用预设搜索引擎执行以下操作:对第一数据库的基础数据构建索引;和/或以第二数据库中的目标数据中、与所述第一数据库的索引字段对应的内容作为索引条件,根据所述第一数据库的索引表搜索与所述目标数据对应的候选数据,得到多个候选数据组合。4.根据权利要求1所述的方法,其特征在于,以第二数据库中的目标数据中、与所述第一数据库的索引字段对应的内容作为索引条件,根据所述第一数据库的索引表搜索与所述目标数据对应的候选数据,得到多个候选数据组合,包括:根据所述索引条件,确定所述第二数据库的目标数据与第一数据库中的基础数据的相似度;按照相似度从大到小对所述基础数据进行排序,根据排序结果确定所述多个候选数据组合,其中,所述多个候选数据组合中的候选数据为相似度排序靠前的N个基础数据,N>0且为整数。5.根据权利要求1所述的方法,其特征在于,所述根据训练好的数据分析模型确定所述候选数据组合中的目标数据与候选数据是否为相同数据,包括:所述训练好的数据分析模型确定所述目标数据及所述候选数据的多种类型特征的特征参数,根据得到的特征参数及对应的预设参数确定所述候选数据组合中的目标数据与候选数据是否为相同数据。6.根据权利要求5所述的方法,其特征在于,所述多种类型特征的特征参数包括以下至少两种:与所述目标数据及所述候选数据各自的名称信息的余弦相似度、jaccard相似度、编辑2CN113656650A权利要求书2/3页距离、汉明距离中的至少一种对应的第一特征参数;与所述目标数据及所述候选数据的时间信息的差值绝对值对应的第二特征参数;与所述目标数据及所述候选数据的相似度对应的第三特征参数。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:将被标记的数据集中的标记数据划分为K份,利用K‑s份标记数据作为训练数据对初始数据分析模型进行训练,并利用s份标记数据作为校验数据对初始数据分析模型进行校