预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108984647A(43)申请公布日2018.12.11(21)申请号201810665703.4(22)申请日2018.06.26(71)申请人北京工业大学地址100124北京市朝阳区平乐园100号(72)发明人吕田田闫健卓(74)专利代理机构北京思海天达知识产权代理有限公司11203代理人沈波(51)Int.Cl.G06F17/30(2006.01)G06F17/27(2006.01)权利要求书2页说明书3页附图4页(54)发明名称一种基于中文文本的水务领域知识图谱构建方法(57)摘要本发明公开了一种基于中文文本的水务领域知识图谱构建方法,包括在网上爬取大量水务文本,利用jieba分词进行中文文本分词,利用stopwords去词表去除分词后文本的停用词,利用TF-IDF方法获取每个概念词的权重,设置一个阈值,保留大于阈值的概念词组成水务概念词库。然后根据与CN-Dbprdia接口连接,获取水务概念词的上级概念,建立结构化水务知识图谱。接着水务结构化知识图谱挂接水务结构化数据库表以及水务文本,完成最终的水务知识图谱的构建。最后运用评估方法对挂接方法进行评估。本发明通过结合不同知识图谱构建方法,充分考虑了知识图谱之间的多种类型数据进行融合,能够提高水务知识图谱构建的效率,提高水务知识图谱的完整性以及准确性。CN108984647ACN108984647A权利要求书1/2页1.一种中文文本的水务领域知识图谱构建方法,其特征在于:该方法主要包括如下步骤:步骤1:在java系统中构建水务概念词库,将构建的词库放入word文本中;步骤2:将构建好的水务概念词库放入mysql数据库中构建概念层次关系,并对不合理的信息进行修改;步骤3:构建好的概念层次关系在protégé系统中实现可视化并挂接水务数据库表以及水务文本,得到最终的水务领域知识图谱。2.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤1所述的构建水务概念词库的方法,其步骤具体包括:步骤1-1:使用python从水务博客以及水务文档中爬取一些水务文本;步骤1-2:用python中的jieba工具对抽取的水务文本进行文本分词;步骤1-3:用python中的stopwords工具对分词后的文本进行停用词去除,组成水务相关概念词;步骤1-4:用TF-IDF方法对水务相关概念词分别进行权重计算,设置一个权重阈值,保留权重大于阈值的概念词。3.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤2所述的构建概念层次关系的方法,其步骤具体包括:步骤2-1:输出的概念词与CN-Dbpedie接口连接,提取出概念词的上级词汇,构建概念的等级结构层次关系,并保存到数据库中,根据备选概念词和专家知识对概念等级结构进行修改;步骤2-2:用jena工具将保存到数据库中的概念信息表写成owl文件。4.根据权利要求1所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤3所述的在protégé中实现可视化并挂接水务信息的方法,其步骤具体包括:步骤3-1:将owl文件导入到protégé软件中,实现水务领域知识图谱的可视化;步骤3-2:运用语义相似度算法挂接水务结构化数据库表以及非结构化水务文本,以完善水务领域知识图谱,形成最终的水务知识图谱。5.根据权利要求2所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤1-4所述的用TF-IDF选取水务相关概念词方法,其步骤具体包括:步骤1-4-1:计算词语ti的词频其中ni,j是词语ti在文档dj中出现的次数,∑knk,j是在文档dj中所有字词的出现次数之和;步骤1-4-2:计算逆向文件频率其中|D|为语料库中的文档总数,|{j:ti∈dj}|为包含该词的文档数;步骤1-4-3:计算tf-idf值:TF-IDFi,j=TFi,j×IDFi;步骤1-4-4:令i=i+1重复前四步,计算出所有文档中每个词的tf-idf值;步骤1-4-5:根据概念词权重值情况设定一个阈值,保留权重大于阈值的概念词。6.根据权利要求4所述的一种中文文本的水务领域知识图谱构建方法,其特征在于:步骤3-2所述的运用语义相似度算法挂接水务结构化数据库表以及非结构化水务文本,其步2CN108984647A权利要求书2/2页骤具体包括:步骤3-2-1:分别用编辑距离算法、Jaccard算法以及欧氏距离算法计算结构化数据库表与水务知识图谱概念词之间的相似度;步骤3-2-2:分别用TF-IDF+余弦相似度算法、LSI算法以及LDA算法计算水务文本与水务知识图谱概念词之间的相似度;步骤3-2-3:分别计算结构化数据库表以及水务文本挂接算法结果的查准率P、