预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115757656A(43)申请公布日2023.03.07(21)申请号202211427394.X(22)申请日2022.11.14(71)申请人中银金融科技有限公司地址200120上海市浦东新区(上海)自由贸易试验区银城中路200号4楼408室(72)发明人罗海峰刘好徐林朱荣升杨璐华(74)专利代理机构北京路浩知识产权代理有限公司11002专利代理师李文清(51)Int.Cl.G06F16/28(2019.01)G06F18/25(2023.01)G06F18/22(2023.01)权利要求书2页说明书9页附图2页(54)发明名称数据抽取方法及装置(57)摘要本发明提供一种数据抽取方法及装置,其中方法包括:从多个异构数据源中,确定包含目标属性的多个第一实体;对多个第一实体中的属性进行融合,得到属性集合;基于属性集合中属性以及与第二实体中属性的数据结构,确定属性集合的属性与第二实体的属性的映射关系;基于映射关系,对属性集合中的属性进行转换,得到转换后的属性,基于转换后的属性构建第二实体。本发明提供的数据抽取方法及装置,通过从多个异构数据源中,确定包含目标属性的多个相同实体,实现从多个异构数据源中自动抽取相同实体,提升了数据抽取效率。基于数据结构,确定抽取的实体数据与待构建实体数据进行转换的映射关系,实现了对待构建实体中的数据结构格式规范的统一。CN115757656ACN115757656A权利要求书1/2页1.一种数据抽取方法,其特征在于,包括:从多个异构数据源中,确定包含目标属性的多个第一实体;对所述多个第一实体中的属性进行融合,得到属性集合;基于所述属性集合中属性的数据结构,与待构建的第二实体中属性的数据结构,确定所述属性集合的属性与所述第二实体的属性的映射关系;基于所述映射关系,对所述属性集合中的属性进行转换,得到转换后的属性,并基于转换后的属性构建所述第二实体。2.根据权利要求1所述的数据抽取方法,其特征在于,所述从多个异构数据源中,确定包含目标属性的多个第一实体,包括:分别遍历所述多个异构数据源中各实体的所有属性,将所述多个异构数据源中各实体的所有属性作为待筛选属性;将所述待筛选属性与所述目标属性进行比对,确定包含目标属性的多个第一实体,所述目标属性为第二实体的特有属性。3.根据权利要求2所述的数据抽取方法,其特征在于,所述将所述待筛选属性与所述目标属性进行比对,确定包含目标属性的多个第一实体,包括:将所述待筛选属性与所述目标属性进行比对,在所述待筛选属性的属性名称与所述目标属性的属性名称相同,且所述待筛选属性的属性值与所述目标属性的属性值相同的情况下,将所述待筛选属性对应的实体作为包含目标属性的第一实体,并确定包含目标属性的多个第一实体。4.根据权利要求1所述的数据抽取方法,其特征在于,所述对所述多个第一实体中的属性进行融合,得到属性集合之后,还包括:确定所述属性集合的重复属性,并去除所述重复属性,所述重复属性为属性名称相同且属性值相同的属性;确定所述属性集合的互斥属性,将所述互斥属性的属性值添加至与所述互斥属性的属性名相同的属性,并删除所述互斥属性,所述互斥属性为属性名称相同且属性值不同的属性。5.根据权利要求1所述的数据抽取方法,其特征在于,所述基于所述映射关系,对所述属性集合中的属性进行转换,得到转换后的属性,包括:基于所述映射关系,分别确定所述属性集合中各属性的属性转换函数;基于所述属性转换函数以及结构化数据转换处理过程算法,对所述属性集合中的属性进行转换,得到结构化的转换后的属性。6.根据权利要求1所述的数据抽取方法,其特征在于,所述基于所述属性集合中属性的数据结构,与待构建的第二实体中属性的数据结构,确定所述属性集合的属性与所述第二实体的属性的映射关系,包括:在所述属性集合中属性为常量形式的数据结构,且所述第二实体中属性为常量形式的数据结构,确定所述属性集合的属性与所述第二实体的属性的映射关系为赋值替换的映射关系。7.一种数据抽取装置,其特征在于,包括:实体提取模块,用于从多个异构数据源中,确定包含目标属性的多个第一实体;2CN115757656A权利要求书2/2页属性融合模块,用于对所述多个第一实体中的属性进行融合,得到属性集合;映射关系确定模块,用于基于所述属性集合中属性的数据结构,与待构建的第二实体中属性的数据结构,确定所述属性集合的属性与所述第二实体的属性的映射关系;实体构建模块,用于基于所述映射关系,对所述属性集合中的属性进行转换,得到转换后的属性,并基于转换后的属性构建所述第二实体。8.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权