预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113626613A(43)申请公布日2021.11.09(21)申请号202110951011.8(22)申请日2021.08.18(71)申请人中山大学附属第一医院地址510000广东省广州市越秀区中山二路58号申请人广州医药信息科技有限公司(72)发明人唐蕾徐有恒何展鹏毛婷婷张武军任斌邓蓉蓉(74)专利代理机构北京精金石知识产权代理有限公司11470代理人张黎(51)Int.Cl.G06F16/36(2019.01)G06F40/295(2020.01)G06F16/35(2019.01)权利要求书2页说明书8页附图5页(54)发明名称基于融入知识图谱子图信息及实体信息的实体链接方法(57)摘要本发明涉及一种基于融入知识图谱子图信息及实体信息的实体链接方法,该方法包括以下步骤:获取问句文本,喂入训练好的提及识别模型,识别出预测提及词;对预测提及词进行召回,得到更高准确率的目标提及词。根据目标提及词从知识库中得到提及词对应的所有候选实体;对每个候选实体,检索它的知识图谱子图信息;将知识图谱子图信息融入到候选实体中得到候选实体文本,并在问句文本及候选实体文本中引入实体边界标签,构建实体消歧数据集;喂入训练好的实体消歧模型,池化得到提及词对应的知识库实体,完成实体链接。本发明能有效提高提及词识别的召回率,提高候选实体的排序准确率并减少错误传递,有效解决推理及在训练集中的未见实体情况。CN113626613ACN113626613A权利要求书1/2页1.一种基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,包括以下步骤:获取问句文本,喂入训练好的提及识别模型,识别出问句文本中的预测提及词;对预测提及词召回,根据召回算法得到目标提及词,根据知识库自带的映射文件,得到目标提及词的所有候选实体,从知识库中检索每个候选实体,得到所有候选实体的知识图谱子图信息;将所述知识图谱子图信息融入到所述候选实体中得到候选实体文本,并在包含提及词的问句文本及包含候选实体的候选实体文本中引入标签对,即引入实体边界信息,构建实体消歧数据集;将所述实体消歧数据集喂入训练好的实体消歧模型,池化得到提及词对应的不同候选实体的分值,取分值最高作为提及词的目标实体,完成实体链接。2.根据权利要求1所述的基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,所述训练提及识别模型的方法包括:构建提及识别预训练模型;获取训练数据,对训练数据中的文本进行序列标注,标出命名实体,得到训练集;将标签的训练集输入到所述提及识别预训练模型进行训练得到相应的命名实体,得到提及识别模型。3.根据权利要求2所述的基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,所述预训练模型为BERT模型加入CRF架构的基础模型;所述训练数据中的文本进行标签的方法为:获取训练数据中的文本的句子;对所述句子中的每一个中文字进行标注;其中,对句子中命名实体的第一个字、命名实体中的其他字以及句子的非命名实体字标注出不同标签,命名实体为提及词。4.根据权利要求3所述的基于融入知识图谱子图信息及实体信息的实体链接方法,其特征在于,所述提及词召回的方法,包括:获取提及识别模型识别的预测提及词以及一个提及词跟知识库实体的映射文件;从所述映射文件中得到知识图谱的全部提及词列表,遍历全部提及词列表中的项,提取所述预测提及词包含的项形成切割列表;将切割列表中长度最大的项作为召回提及词,根据召回提及词与预测提及词建立召回列表;遍历召回列表中的每一项,检索所述全部提及词列表中包含所述历召回列表的项,提取构建延伸列表,将延伸列表与所述立召回列表合并得到召回的实体召回列表。5.根据权利要求1所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述候选实体文本的构建方法,包括:检索知识图谱,所述知识图谱以头节点、关系、尾节点的三元组形式存储;根据所述知识图谱的三元组形式,将所有与头节点相连的边和尾节点都取出作为知识图谱子图信息,得到所述候选实体的所有知识图谱子图信息;将所述知识图谱子图信息拼接到所述候选实体的上下文中得到候选实体文本。2CN113626613A权利要求书2/2页6.根据权利要求5所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述标签对为实体消歧模型识别所述提及词和候选实体的边界信息,所述标签对分别插入所述问句文本的提及词前后和所述候选实体文本的候选实体前后。7.根据权利要求1所述的基于融入知识图谱子图信息及实体信息的实体链接方法,所述实体消歧数据集构建为:[CLS]“问句文本”[SEP]+“候选实体文本”+[SEP]+句对的正确分类。8.根据权利要求7所述的基于融入知识图谱子图信息及实体信息的