预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114153983A(43)申请公布日2022.03.08(21)申请号202111353417.2G06F40/247(2020.01)(22)申请日2021.11.16G06F40/279(2020.01)G06N3/04(2006.01)(71)申请人北京航天云路有限公司G06N3/08(2006.01)地址100043北京市石景山区八大处路49G06N7/00(2006.01)号院7号楼12层1206(72)发明人何伟李小超谢水庚冀天宇郝志强(74)专利代理机构北京纽乐康知识产权代理事务所(普通合伙)11210代理人苏泳生(51)Int.Cl.G06F16/36(2019.01)G06F16/35(2019.01)G06F16/33(2019.01)G06F40/194(2020.01)权利要求书2页说明书5页附图3页(54)发明名称一种行业知识图谱的多源构建方法(57)摘要本发明公开了一种行业知识图谱的多源构建方法,该多源构建方法包括以下步骤:S1针对开放知识库、在线百科、行业文本、行业结构数据四类知识来源,提取行业概念和实体;S2合并同义概念和实体;S3提取概念的上下位关系;S4提取概念和实体的非上下位及属性关系。该多源构建方法能够解决现有构建方法人为工作量大、耗费大量的计算机资源、碎片化信息过多、数据不完整、难以对不同来源的知识区别提取和融合的问题,从而达到根据数据来源不同,采用针对性的策略构建目标本体、抽取实体和属性,兼顾了不同来源知识的特点,结合机器学习方法对知识图谱进行半自动构建,在确保准确的同时大大减少了大规模知识图谱构建所耗费的人力的目的。CN114153983ACN114153983A权利要求书1/2页1.一种行业知识图谱的多源构建方法,其特征在于,包括以下步骤:S1针对开放知识库、在线百科、行业文本、行业结构数据四类知识来源,提取行业概念和实体;S2合并同义概念和实体;S3提取概念的上下位关系;S4提取概念和实体的非上下位及属性关系。2.根据权利要求1所述的行业知识图谱的多源构建方法,其特征在于,所述S1包括以下步骤:S11搜集已有开放链接数据集和开放知识库中行业核心概念和实体,所述开放链接数据集和开放知识库包括DBPedia、YAGO、Zhishi.me三种;S12搜集维基百科、百度百科、互动百科中分类系统的类别标签作为概念,百科文章的标题作为实体的候选,并将在线百科中对应的简介文本作为概念或实体的摘要;S13对行业文本语料采用词频统计、RAKE、TextRank、TF‑IDF方法找出关键词集合,通过行业专家辅助从中初步筛选出行业核心概念;S14对行业结构数据,通过D2RServer工具,将关系数据库中的相关表和表中的列分别映射为概念的实体和实体的属性;S15对上述S11‑S14中四个途径获取的行业概念和实体进行整合。3.根据权利要求1所述的行业知识图谱的多源构建方法,其特征在于,所述S2包括以下步骤:S21开放链接数据中的同义关系明确,DBPedia中使用『owl:sameAs』标识同义实体,YAGO中使用『means』标识同义实体,Zhishi.me中使用『pageRedirects』标识同义实体的重定向页面;S22在线百科方面,将同一在线百科中学习到的概念进行合并,遍历百科中的实体页面,把具有同一重定向标记的页面标题标识为同一实体,将实体页面信息中『别称』、『中文别称』字段对应的值标识为同一实体;判断不同在线百科同名实体之间是否同义:对于不同在线百科中的页面文章,标题相同时,文章内容相似度超过80%的文章标识为同一实体或概念对应的页面,文章标题对应的实体或概念标记为同义;S23抽取行业文本同义关系:行业文本方面,首先,定义『X又名Y』、『X又叫Y』、『X又称Y』、『X也名Y』、『X也叫Y』、『X也称Y』、『X亦称Y』、『X也叫做Y』、『X也叫作Y』、『X也称为Y』、『X又称为Y』、『X简称Y』、『X俗称Y』、『X原名Y』、『X是Y的同义词』、『X是Y的近义词』、『X古称Y』、『X是Y的简称』、『X的同义词是Y』、『X(Y)』、『X又被叫作Y』、『X又被称作Y』、『X又被称为Y』、『X也被叫作Y』、『X也被称作Y』『X也被称为Y』为描述同义关系的句式规则,根据这些规则在行业文本中进行匹配,抽取实体或概念间的同义关系,然后,通过NLP工具对文本进行分词和词性标注,根据已经提取的同义关系得到训练数据,用BiLSTM‑CRF算法进行建模,抽取其中的同义关系;S24将上述S21‑S23中三个途径得到的同义关系进行合并,不同途径得到的同义关系中有相同概念或实体,则合并两个同义关系。4.根据权利要求3所述的行业知识图谱的多源构建