预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113656591A(43)申请公布日2021.11.16(21)申请号202110828234.5(22)申请日2021.07.22(71)申请人国家电网有限公司大数据中心地址100053北京市西城区白广路二条一号综合楼330房间(72)发明人沈亮高灵超周春雷朱广新陈相舟(74)专利代理机构湖北武汉永嘉专利代理有限公司42102代理人张惠玲(51)Int.Cl.G06F16/36(2019.01)G06K9/62(2006.01)权利要求书1页说明书7页附图5页(54)发明名称一种用于知识图谱补全的增量式多源实体解析方法(57)摘要本发明公开了一种用于知识图谱补全的增量式多源实体解析方法,包括:在增量式多源实体之间应用配对链接,导出相似度图谱;采用聚类方法,利用相似度图谱来确定增量式多源实体所属的实体簇,输出完全聚类图谱,完成对增量式多源实体的解析。本发明目的是减少对添加新源和实体的顺序的依赖,为此考虑优化分配给实体集群的新实体集。本发明提出使用轻量级方法来修复实体簇,以纠正错误的簇,新方法集成在用于并行和可扩展的实体聚类的FAM实体解析框架中,对实际工作负载的新方法进行详细评估显示了其有效性,特别是,修复方法优于其他的增量式方法,并且与批处理式实体解析相比,其质量达到了相同的水平,这表明其结果与添加新实体的顺序无关。CN113656591ACN113656591A权利要求书1/1页1.一种用于知识图谱补全的增量式多源实体解析方法,其特征在于,包括:在增量式多源实体之间应用配对链接,导出相似度图谱;其中,所述相似度图谱用于将来自多个源的匹配实体进行分组,以形成实体集群;采用聚类方法,利用相似度图谱来确定增量式多源实体所属的实体簇,输出完全聚类图谱,完成对增量式多源实体的解析。2.根据权利要求1所述的用于知识图谱补全的增量式多源实体解析方法,其特征在于,在增量式多源实体之间应用配对链接,导出相似度图谱的步骤中,包括步骤:将源自现有源或源自新源的新实体作为输入工作流,输入已确定聚类的相似度图谱中进行迭代,输出已有的实体簇,新实体的组以及新创建的链接组成的分组相似图。3.根据权利要求1所述的用于知识图谱补全的增量式多源实体解析方法,其特征在于,所采用的聚类方法包括最大双向合并基方法和n‑深度重新聚类法;其中,所述最大双向合并基方法是通过判断,将新的增量式多源实体分配到相似的现有簇中,或形成新簇;所述n‑深度重新聚类法是通过对现有聚类图谱进行重新聚类,以修复现有聚类,从而为新的增量式多源实体实现更好的聚类分配,其中n是用来控制被考虑重聚类的相似图的部分的参数。4.根据权利要求1所述的用于知识图谱补全的增量式多源实体解析方法,其特征在于,相似度图谱公式表示为G=(E,L);其中,E的顶点表示实体,L的边缘表示相似实体之间的链接的图;边缘具有指示相似度的相似度值(区间[0,1]中的实数)的属性;同一源的实体之间没有边缘。5.根据权利要求4所述的用于知识图谱补全的增量式多源实体解析方法,其特征在于,聚类相似图谱CG是一个相似度图谱G,使得其所有实体都被聚类,相同的集群实体解析id被分配给同一簇的所有顶点。2CN113656591A说明书1/7页一种用于知识图谱补全的增量式多源实体解析方法技术领域[0001]本发明属于数据处理技术领域,具体涉及一种用于知识图谱补全的增量式多源实体解析方法。背景技术[0002]知识图谱将许多实体及其属性和关系以及有关实体类型和关系类型的关联元数据物理地集成在类似图谱的结构中。知识图谱实体通常是从众多源中集成的,例如其他知识图谱或网页。初始知识图谱可以从单个源(例如,诸如DBpedia等预先存在的知识图谱)或多个源的静态集成来创建。知识图谱补全(或扩展)是指新实体和整个源的增量添加。添加新实体需要解决一些具有挑战性的任务,尤其是将新实体与知识图谱中已知的实体进行匹配和聚类的增量实体解析。[0003]先前有关实体解析的大多数工作都是处理匹配来自一个或多个静态数据源的实体的静态实体解析。这种静态方法不足以将实体添加到使用中的知识图谱中,在该知识图谱中,大多数已经集成的实体在很大程度上不受新实体的影响,因此不必在每次更新时重新集成。多源实体的实体解析通常将匹配实体进行分组或聚类,然后可以使用这些簇来融合(合并)匹配实体的属性以获得对知识图谱的丰富实体描述。因此,增量实体解析需要为新实体更新这些实体簇。一个简单的方法是将一个新实体添加到最相似的现有集群中,或者在没有相似实体的情况下创建一个新集群。但是,这种方法通常对添加新实体的顺序有很强的依赖性。特别地,例如由于数据质量问题而导致的错误群集决策无法得到纠正,并且在添加新实体时可能导致进一步的