预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114969385A(43)申请公布日2022.08.30(21)申请号202210924260.2G06F40/295(2020.01)(22)申请日2022.08.03(71)申请人北京长河数智科技有限责任公司地址100070北京市丰台区汽车博物馆西路8号院3号楼7层705申请人山西长河科技股份有限公司(72)发明人杨勇张煇(74)专利代理机构北京法筑知识产权代理有限公司16100专利代理师张雨红(51)Int.Cl.G06F16/36(2019.01)G06F16/35(2019.01)G06F40/216(2020.01)G06F40/289(2020.01)权利要求书4页说明书12页附图3页(54)发明名称基于文档属性赋值实体权重的知识图谱优化方法及装置(57)摘要本发明涉及知识图谱技术领域,揭露了一种基于文档属性赋值实体权重的知识图谱优化方法,包括:根据事务词条集提取目标词条集,根据目标语句集,提取候选三元组,判断关系词条相似度是否大于关系相似阈值,若大于则存入原始关系库及原始实体库,若不大于,则判断实体词条的相似度是否大于实体相似阈值,若大于,则将候选三元组存入原始关系库及原始实体库,若不大于,则返回提取候选三元组,对初始关系库及初始实体库优化,得到目标关系库及目标实体库。本发明还提出一种基于文档属性赋值实体权重的知识图谱优化装置、电子设备以及计算机可读存储介质。本发明可以解决知识图谱存在数据更新不及时,数据滞后严重的问题。CN114969385ACN114969385A权利要求书1/4页1.一种基于文档属性赋值实体权重的知识图谱优化方法,其特征在于,所述方法包括:获取原始文档,根据所述原始文档中的词语特征,对所述原始文档进行文档领域分类,得到领域文本;识别所述领域文本对应的原始实体库及原始关系库,根据所述原始实体库及原始关系库中的原始实体词条及原始关系词条,在所述领域文本内提取文本语句;对所述文本语句进行分词处理,得到事务词条集,根据所述事务词条集中每个词条的支持度及置信度,在所述事务词条集中提取目标词条集;在所述领域文本内提取含有所述目标词条集中词条的语句,得到目标语句集;根据所述目标语句集中语句的动词,提取所述目标语句集中每条语句的候选三元组;判断所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度是否大于预设的关系相似阈值;若所述候选三元组中的关系词条与所述原始关系库中任一原始关系词条的相似度大于相似阈值,则将所述候选三元组存入所述原始关系库及原始实体库,得到初始关系库及初始实体库;若所述候选三元组中的动词与所述原始关系库中任一原始关系词条的相似度不大于相似阈值,则判断所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度是否大于预设的实体相似阈值;若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度大于所述实体相似阈值,则将所述候选三元组存入所述原始关系库及原始实体库,得到初始关系库及初始实体库;若所述候选三元组中实体词条与所述原始实体库中任一原始实体词条的相似度不大于所述实体相似阈值,则返回上述根据所述目标语句集中语句的动词,提取所述目标语句集中每条语句的候选三元组的步骤;计算所述实体词条的实体权重值,根据所述实体权重值对所述初始关系库及初始实体库进行优化,得到目标关系库及目标实体库。2.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法,其特征在于,所述获取原始文档,包括:获取预构建的数据库表,在所述数据库表中提取结构化数据;在预构建的百科网页中爬取文档,整合所述结构化数据及爬取的所述文档,得到所述原始文档。3.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法,其特征在于,所述根据所述原始文档中的词语特征,对所述原始文档进行文档领域分类,得到领域文本,包括:提取所述原始文档中的文档关键词,计算所述文档关键词的属性权重值;根据所述属性权重值,计算所述原始文档的词汇向量式;利用预构建的聚类算法,根据所述词汇向量式,对所述原始文档进行领域分类,得到所述领域文本。4.如权利要求1所述的基于文档属性赋值实体权重的知识图谱优化方法,其特征在于,所述根据所述事务词条集中每个词条的支持度及置信度,在所述事务词条集中提取目标词2CN114969385A权利要求书2/4页条集,包括:利用预构建的支持度计算公式,计算所述事务词条集中每个词条的支持度,将所述支持度高于预设的支持阈值的词条作为频繁词项,得到频繁词项集,其中,所述支持度计算公式如下所示:其中,表示支持度,表示第个词条在所述领域文本内出现的次数,表示所述领域文本内的所有词语;利用预构建的置信度计算公式,计算所述频繁词项集中任意两个频繁