预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115292508A(43)申请公布日2022.11.04(21)申请号202210751615.2G06F16/26(2019.01)(22)申请日2022.06.29G06F16/25(2019.01)(71)申请人江苏昆山农村商业银行股份有限公司地址215334江苏省苏州市昆山市前进东路828号(72)发明人邵宏力杨立才邓知知胡超刘磊李云(74)专利代理机构国浩律师(南京)事务所32284专利代理师孟睿(51)Int.Cl.G06F16/36(2019.01)G06F16/22(2019.01)G06F16/28(2019.01)权利要求书2页说明书17页附图4页(54)发明名称一种基于表数据的知识图谱构建方法和系统(57)摘要本发明涉及一种基于表数据的知识图谱构建方法和系统。步骤包括:获取用于构建知识图谱的各表的表名,以及各表中的字段名;针对各表,根据表中字段的值,分析各字段的特征;以及针对各表,根据表名、字段名以及字段的值,计算获得表内各字段之间的表内函数依赖关系;针对各表,根据表内函数依赖关系识别出各表的主键,并根据所述主键的特征在其他表中寻找并确定与之对应的外键,在主键和外键之间形成外键关系;将各表以及各表之间的外键关系以可视化的图结构形式展示作为表级知识图谱。本发明一次分析即可形成数据画像,支持持续的增量更新。CN115292508ACN115292508A权利要求书1/2页1.一种基于表数据的知识图谱构建方法,其特征在于,获取用于构建知识图谱的各表的表名,以及各表中的字段名;针对各表,根据表中字段的值,分析各字段的特征;以及针对各表,根据表名、字段名以及字段的值,计算获得表内各字段之间的表内函数依赖关系;针对各表,根据表内函数依赖关系识别出各表的主键,并根据所述主键的特征在其他表中寻找并确定与之对应的外键,在主键和外键之间形成外键关系;将各表以及各表之间的外键关系以可视化的图结构形式展示作为表级知识图谱。2.如权利要求1所述的基于表数据的知识图谱构建方法,其特征在于,所述特征包括定性特征和定量特征;所述定性特征包括字段的数据类型,所述定量特征包括字段的长度;寻找并确定外键时,将其他表中与主键数据类型和字段长度相匹配的字段作为外键,所述与主键数据类型和字段长度相匹配的字段是指,该字段的数据类型与主键数据类型相同,该字段的最小长度大于或等于主键的最小长度、最大长度小于或等于主键的最大长度。3.如权利要求2所述的基于表数据的知识图谱构建方法,其特征在于,寻找并确定外键时,包括:依次遍历主键,对每个主键的值通过Hash方法生成对应的布隆过滤器;将所述与主键数据类型和字段长度相匹配的字段的值与对应该主键的布隆过滤器进行比较,当主外键数据覆盖率大于预先设定的阈值时,将该字段作为最终确定的外键。4.如权利要求1所述的基于表数据的知识图谱构建方法,其特征在于,所述主键为候选码集合;获得表内各字段之间的函数依赖关系后,针对函数依赖推导层小于等于阈值的函数依赖关系集合,使用快速求候选码的方法进行候选码求解。5.如权利要求4所述的基于表数据的知识图谱构建方法,其特征在于,当求解出的主键为单一字段的主键时,将其字段行数与字段去重后行数进行比较,如果字段行数与字段去重后行数相等,则将其作为最终的主键;当求解出的主键为联合主键时,使用SQL对联合主键的字段计算其联合和的去重行数,当与表的记录行数相等时,则将其作为最终的联合主键。6.如权利要求1所述的基于表数据的知识图谱构建方法,其特征在于,所述表级知识图谱包括节点和边;其中,每一个节点代表一张表,每个节点存储有代表该表的信息,代表该表的信息至少包括表名;每一条边代表一种外键关系,每条边都为有向边;其中,边出发的节点为主键所属的表,边指向的节点为外键所属的表;每条边上存储有外键关系信息,所述外键关系信息为主键的字段名、外键的字段名以及主外键数据覆盖率中的一种或多种信息。7.如权利要求6所述的基于表数据的知识图谱构建方法,其特征在于,还包括构建字段级知识图谱;将各表的字段、表内函数依赖关系、各表间关系以可视化的图结构形式展示作为字段级知识图谱;获取表间关系的方法为:通过表内函数依赖关系,确定外键所属的表A,找到该外键字段的闭包,将闭包内字段2CN115292508A权利要求书2/2页去重后形成一张以该外键的字段为主键的临时表B;通过外键关系,将主键所在表C作为左表,以临时表B作为右表,进行内连接形成一张新的临时表D;就临时表D中的各字段,计算各字段之间的函数依赖关系,形成表间函数依赖关系,包括:表间单向函数依赖,即表A和表C之间的字段在临时表D中存在单向依赖关系;表间双向函数依赖,即表A和表C之间字段在临时表D中存在双向依赖关