预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于图方法的命名实体消歧摘要:名实体歧义是机器对自然语言进行理解时经常遇到的问题为使机器能够正确地分析自然语言文本对名实体消除歧义亟待解决。近年来随着Wikipedia等语义知识库的出现大量基于知识库的消歧方法被提出。命名实体消歧的任务是将文本中具有多个含义的实体指称去除歧义并将其链接到知识库中的唯一实体。本文采用DBpedia作为知识库基于图的方法进行实体消歧。关键词:实体消歧;图方法;知识库;DBpedia中图分类号:TP391.41文献标识号:A文章编号:2095-2163(2015)04-Graph-BasedMethodforNamedEntityDisambiguationYANGGuangLIUBingquanLIUMing(SchoolofComputerScienceandTechnologyHarbinInstituteofTechnologyHarbin150001China)Abstract:Ambiguityisoneofthemostcommonproblemsinnaturallanguageprocessing.Inordertomakemachineanalysisnaturallanguagetextscorrectlyeliminatingambiguityisanurgentproblemtobeaddressed.InrecentyearswiththeemergencyofknowledgebasesuchasWikipediatherearelargeamountofmethodproposedbasedonknowledgebase.Thetaskofnamedentitydisambiguationistoeliminateambiguityforthementionswhichhasmultiplemeaningsandlinkittoonlyoneentityinknowledgebase.ThisarticleusesagraphbasedmethodandemploysDBpediaastheknowledgebasetolink.Keywords:EntityDisambiguation;Graph-BasedMethod;KnowledgeBase;DBpedia0引言命名实体消歧在自然语言处理应用中发挥着重要的作用可以有效解决语义网络信息检索问答等自然语言处理任务。在信息检索任务中通过命名实体消歧可以区分具有相同文本表示的不同实体从而去除不相关实体的信息提高准确率。通过识别特定的实体可以从大量文本中抽取某一特定实体的信息对知识库中实体的内容进行扩展。命名实体消歧的任务是对于文本中给定的实体指称找到知识库中对应的词条。实体指称是需要进行消歧的名实体字符串。例如下面这样一句话:MichaelJordanplaysbasketballinBulls.该句话中的Jordan和Bulls就是实体指称实体指称的获得需要命名实体识别步骤来实现本文专注于实体消歧命名实体识别部分不再赘述。由于实体的多义性例如MichaelJordan在搜索引擎的结果中即有篮球运动员MichaelJeffreyJordan又有伯克利教授MichaelI.Jordan。如何从大量的候选实体中识别出正确的实体是实体消歧任务面临的挑战。实体消歧的基本步骤是:首先根据实体指称字符串在知识库中获取候选实体。然后对候选进行排序将实体指称链接到最有可能的候选实体。实体消歧的方法大致分为两种类别一种是单实体消歧方法一次对文本中的一个实体指称进行消歧而不考虑同一文本中其他实体指称对其的影响。这种方法通常采用实体指称所在的上下文文本的局部特征和知识库中候选实体的描述文本进行比较。Bunescu[1]提出了一种根据实体指称的上下文文本和候选实体的维基百科类别的相似度进行实体消歧的方法。Zheng[2]采用了learning-to-rank方法将实体指称链接到最有可能的候选实体。除了单实体消歧方法另一类为整体消歧方法。由于同一文本中共现的实体往往基于同一个主题或者具有某种相关性所以这种方法假设在同一篇文本中的不同实体指称的消歧决策互相之间具有依赖性。由于要对实体之