预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115757815A(43)申请公布日2023.03.07(21)申请号202211382345.9(22)申请日2022.11.04(71)申请人北京中科凡语科技有限公司地址100190北京市海淀区知春路63号51号楼10层1006(72)发明人周玉翟飞飞邓彪(74)专利代理机构湖北权上知识产权代理事务所(特殊普通合伙)42287专利代理师章胜强(51)Int.Cl.G06F16/36(2019.01)G06F16/28(2019.01)G06F40/295(2020.01)权利要求书2页说明书5页附图1页(54)发明名称知识图谱的构建方法、装置及存储介质(57)摘要本发明公开一种知识图谱的构建方法、装置及存储介质,属于信息抽取和知识图谱技术领域。该知识图谱的构建方法,包括以下步骤:S1、对原始文本进行抽取,得到候选三元组集合;S2、对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;S4、利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。该方法实现了从文本中构建出高质量的知识图谱。CN115757815ACN115757815A权利要求书1/2页1.知识图谱的构建方法,其特征在于,包括以下步骤:S1、对原始文本进行抽取,得到候选三元组集合,所述候选三元组集合中的三元组包括头实体、关系和尾实体;S2、对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;S4、利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。2.根据权利要求1所述的知识图谱的构建方法,其特征在于,在步骤S1之前,还包括对原始文本进行预处理,包括:将原始文本进行句子切分、短语句法分析,得到文本中每个句子的句法分析结果。3.根据权利要求1所述的知识图谱的构建方法,其特征在于,在步骤S2中,所述精选三元组的判断包括:计算三元组中头实体和尾实体的置信度,若头实体的置信度大于0.7且尾实体置信度大于0.7,则判断该三元组为精选三元组。4.根据权利要求3所述的知识图谱的构建方法,其特征在于,在步骤S2中,所述置信度由以下步骤得到:将三元组所在句子w输入命名实体识别模型,模型会输出w中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率,分别记ps,pm,pe,po,且有ps+pm+pe+po=1;将头实体或者尾实体所对应的实体字符标签序列的概率平均,得到头实体或者尾实体的置信度。5.根据权利要求4所述的知识图谱的构建方法,其特征在于,在步骤S2中,一个头实体或者尾实体所对应的字符串长度为N,记作{wi,wi+1,...,wi+N},则其置信度可由下列公式计算得到:6.根据权利要求1所述的知识图谱的构建方法,其特征在于,在步骤S2中,所述校验还包括过滤三元组,将过滤的三元组作为过滤三元组集合。7.根据权利要求6所述的知识图谱的构建方法,其特征在于,在步骤S3中,训练并更新所述命名实体识别模型包括:将步骤S2的精选三元组集合中的精选三元组作为正样本,将过滤三元组集合中固定过滤三元组作为负样本合并,作为命名实体识别模型的训练数据,在训练过程中,将正样本和负样本,输入基于BERT+CRF的命名实体识别模型,迭代后,停止训练,得到新的命名实体识别模型。8.一种知识图谱的构建装置,其特征在于,包括:第一抽取单元,用于对原始文本进行抽取,得到候选三元组集合,所述三元组集合中的三元组包括头实体、关系和尾实体;校验单元,对所述候选三元组集合进行校验,所述校验包括判断出精选三元组,所述精选三元组作为构成知识图谱的三元组元素,形成精选三元组集合;训练单元,用于以精选三元组的头实体和尾实体作为命名实体识别的标准答案,训练并更新命名实体识别模型;第二抽取单元,用于利用所述命名实体识别模型对原始文本的句子进行实体识别,自动标注出其中的实体,抽取三元组。2CN115757815A权利要求书2/2页9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的知识图谱的构建方法的步骤。3CN115757815A说明书1/5页知识图谱的构建方法、装置及存储介质技术领域[0001]本发明涉及信息抽取和知识图谱技术领域,具体涉及一种知识图谱的构建方法、装置及存储介质。背景技术[0002]知