预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113918725A(43)申请公布日2022.01.11(21)申请号202111011676.7(22)申请日2021.08.31(71)申请人南京中禹智慧水利研究院有限公司地址210012江苏省南京市雨花台区宁双路19号云密城10号楼4层(72)发明人丛小飞左翔刘威风赵杏杏刘修恒(74)专利代理机构北京中政联科专利代理事务所(普通合伙)11489代理人何磊(51)Int.Cl.G06F16/36(2019.01)G06F16/901(2019.01)G06F16/906(2019.01)权利要求书3页说明书7页附图4页(54)发明名称一种水务领域知识图谱的构建方法(57)摘要本发明公开了一种河湖健康知识图谱的构建方法,包括以下主要步骤:在分析相关水利行业标准和河湖健康相关数据资源类型的基础上,分别定义河湖健康元数据类型和基于目录分类的知识服务模式,确定河湖健康本体模型的本体集并明确属性,根据属性挖掘以及建立本体之间的关系,进行河湖健康本体库模型的建模;通过主题挖掘、远程监督、事理因果关系提取等多种手段,从海量异构数据资源中抽取出更多的实体与关联关系,进一步补充完善本体库模型:采用基于共有属性的概念相似度计算算法和基于出入链集合的相似度计算算法进行综合计算,减少实体冗余,实现知识融合;通过建立自适应更新机制,实现河湖健康知识图谱的半自动化更新。CN113918725ACN113918725A权利要求书1/3页1.一种水务领域知识图谱的构建方法,其特征在于,包括以下步骤:步骤1:对水务数据进行顶层知识图谱构建和知识抽取之前,对数据进行校验和去噪音;步骤2:基于neo4j平台构建水务领域知识图谱顶层概念模型,将其作为水务领域知识图谱的骨架;步骤3:从行业标准、各类数据库、政府职能部门网站、水文水环境监测网站、公众网站、物联网数据和遥感影像等异构数据源中,进行实体抽取和关系抽取;步骤4:在数据抽取基础上,将具有相同指代的实体三元组数据挂接同一个概念下,通过计算概念实体之间的相似度,完成实体对齐;所述实体三元组数据为包括实体‑属性‑属性值、实体‑关系‑实体两种形式的三元组;步骤5:基于neo4j平台的图数据库完成知识的存储。2.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤1中,具体包括以下内容:(1)对文本数据类型中的缺失值、异常值、重复值、脏数据进行清洗;(2)对非文本数据中表格和图片记录的数据进行处理,使用人工提取或图片转文字软件,将上述数据整理形成文本数据;(3)对数据中存在的随机误差进行过滤;(4)将文本数据中的句子以单句短语为单位整理好成为可以使用的语料。3.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤2中,具体包括以下内容:对水务对象进行分级分类,在水务领域概念下划分出地理位置概念和对象设施概念两个子类;其中,地理位置概念包含的领域类是对一片地理区域的定性结果,对象设施概念包含的领域类则是天然存在或者人为构筑的水务对象;对于地理位置概念,根据其所描述的地理位置区域是否具有实际功能进一步分为描述性地点和功能性地点;对于对象设施概念,则根据是自然存在或人为建造进一步区分为自然对象与工程设施。4.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤3中,数据源类型分为以下三类:(1)结构化数据;(2)半结构化数据;(3)非结构化数据。5.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤3中,结构化数据主要采用如下方式抽取:(a1)连接数据库;(a2)进行基本数据初始化操作;(a3)构造SQL语句并进行数据查询;(a4)进行数据类型,结构和属性转换;(a5)判断数据是否存在于neo4j数据库中,如果存在返回(a3)步,否则进行(a6)步的数据存储;2CN113918725A权利要求书2/3页(a6)构建neo4j数据存储语句,并结合SQL语句抽取的信息确定上下位关系,创建节点;(a7)判断SQL语句是否查询完毕,如果查询完毕,退出抽取程序,如果没有则返回(a3)步,继续构建SQL语句进行数据查询。6.根据权利要求1所述的一种水务领域知识图谱的构建方法方法,其特征在于,所述步骤3中,半结构化数据主要采用如下方式抽取:(b1)首先通过Scrapy的Engine模块打开网站,通过Spider模块发送第一个爬取请求;(b2)Engine模块从Spider模块得到爬取链接,通过Scheduler模块以请求调度的形式进行调度;(b3)Engine模块向Scheduler模块请求下一个需要爬取的链接,并同时将任务交给Downloader模块进行下载;