预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115828854A(43)申请公布日2023.03.21(21)申请号202310126466.5G06F40/232(2020.01)(22)申请日2023.02.17G06F16/951(2019.01)G06F16/903(2019.01)(71)申请人东南大学G06F16/335(2019.01)地址210096江苏省南京市玄武区四牌楼2G06F16/36(2019.01)号G06F18/22(2023.01)(72)发明人汪鹏李欣和王树鑫周伟洪天宇张公瑞蒋承欢陈希烨(74)专利代理机构南京众联专利代理有限公司32206专利代理师蒋昱(51)Int.Cl.G06F40/134(2020.01)G06F40/169(2020.01)G06F40/177(2020.01)G06F40/205(2020.01)权利要求书5页说明书17页附图3页(54)发明名称一种基于上下文消歧的高效表格实体链接方法(57)摘要一种基于上下文消歧的高效表格实体链接方法,首先,对表格数据进行结构分析,提取主题列索引与非主题列索引。其次,通过搜索引擎抓取的网页标题来过滤表格单元格噪声,实现拼写纠错。然后,查询知识图谱以获得实体链接的候选实体,并为每个表格额外转储一份预处理文件。接着,基于非主题列单元格与知识图谱中实体属性值间的相似度对候选实体进行初步评分,最后,根据候选实体排序结果得到表格数据在知识图谱中的对应实体,即得到表格实体链接结果。本发明具有优秀的实体链接性能和高效的实体查询效率,能有效解决大规模表格数据的实体链接问题。CN115828854ACN115828854A权利要求书1/5页1.一种基于上下文消歧的高效表格实体链接方法,包括以下步骤,其特征在于:1)表格结构分析:首先,针对输入的每个表格以列为单位,对所有单元格进行命名实体识别,并基于多数投票打分机制判断表格的列索引是否为实体列,即本列中的多数单元格是否可以归类为知识图谱中的实体,然后,通过计算本列任意两个单元格的莱文斯坦比,在实体列中进一步提取主题列;2)拼写纠错和实体查询:将步骤1)中得到的实体列单元格文本进行拼写纠错和实体查询,通过搜索引擎抓取的网页标题为每个单元格文本构建语料库,根据编辑距离对语料库进行过滤,保留多个纠错结果,并作为知识图谱实体查询的输入,查询的结果则作为本单元格的候选实体;3)候选实体评分:对步骤2)中得到的候选实体进行过滤,依据表格数据主题列与非主题列的关系,计算候选实体的属性值与非主题列单元格间的相似度,为每个候选实体提供初步评分;4)CEA、CTA和CPA实体消歧:将步骤3)中得到的候选实体评分用于实体消歧,首先,分别针对表格单元到知识图谱实体对齐CEA、表格字段到知识图谱概念对齐CTA以及表格字段对到知识图谱属性对齐CPA三项任务提出排序算法;其中,表格字段到知识图谱概念对齐CTA任务利用了目标字段各行单元格候选实体的评分,表格单元到知识图谱实体对齐CEA任务利用了目标单元格候选实体的评分与表格字段到知识图谱概念对齐CTA任务的结果,表格字段对到知识图谱属性对齐CPA任务利用了目标字段对各行候选关系的评分与表格单元到知识图谱实体对齐CEA任务的结果;然后,根据候选实体排序结果得到表格数据在知识图谱中的对应实体,即得到表格实体链接结果。2.根据权利要求1所述的一种基于上下文消歧的高效表格实体链接方法,其特征在于:所述步骤1)提出的表格结构分析由命名实体识别、实体列识别以及主题列识别三个模块组成。3.根据权利要求2所述的一种基于上下文消歧的高效表格实体链接方法,其特征在于:对所述步骤1)中莱文斯坦比计算公式如下:;其中,是第j列的任意两个单元格,是的编辑距离,分别是单元格的字符串长度,令;表示第j列不同单元格的集合,M是表格的行数,主题列索引s的计算公式如下:2CN115828854A权利要求书2/5页;如果计算结果存在多个主题列,则选择表格列索引最小的主题列作为结果。4.根据权利要求3所述的一种基于上下文消歧的高效表格实体链接方法,其特征在于:所述步骤2)中的拼写纠错和实体查询过程采用多线程查询机制。5.根据权利要求4所述的一种基于上下文消歧的高效表格实体链接方法,其特征在于:对所述步骤2)中的拼写纠错和实体查询过程具体如下,首先,采用分词技术过滤表格数据的噪声,针对实体列单元格cij的文本t=[t1,t2,…,tl],其中l是文本向量t的单词数,构造查询集合;其中qi:j是对文本t分词后的查询文本,然后,将查询集合中的每一个文本向量元素作为搜索引擎的输入,通过搜索引擎抓取的网页标题为每个单元格文本t构建语料库,其中r是搜索引擎返回的单词数,接着,基于语料库单词与构成文本的每个单词间