预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

[复杂中文文本的实体关系抽取研究]实体抽取第36卷第8期计算机科学Vol.36No.8复杂中文文本的实体关系抽取研究王苑徐德智陈建二(中南大学信息科学与工程学院长沙410083)摘要实体关系抽取是信息抽取研究领域中的重要研究课题之一。针对已有方法在处理复杂文本上的不足,提出了复杂中文文本的实体关系抽取方法。结合中文文本的语法特征,提出了7条抽取关系特征序列的启发式规则,并采用语义序列核和KNN机器学习算法结合的方法来分类和标注关系的类型。通过对ACE评测定义下的两个子类的实体关系抽取,关系抽取的平均F值达到了76%,明显高于传统的基于特征向量和最短依存路径核的方法。关键词实体关系抽取,语法特征,启发式规则,语义序列核中图法分类号TP393,TP391文献标识码AEntityRelationExtractionforComplexChineseTextWANGYuanXUDe2zhiCHENJian2er(CollegeofInformationScienceandEngineering,CentralSouthUniversity,Changsha)AbstractEntityRelationExtractionisoneoftheimportantinAimingattheproblemofinefficiencyofexistingapproachespaperpresentedanovelap2proach.ThisnewapproachfeaturesequencethroughcombiningwithgrammarfeatureofthekernelfunctionwithKNNlearningalgorithmtoful2filltheentityarecarriedoutontwokindsofrelationtypesdefinedintheACEguidelinesthatthenewapproachachievesanaverageF2scoreupto76%,significantlyhigherthanthetra2ditionalfeature2basedapproachesandtraditionalshortestpathfordependencykernelapproaches.KeywordsEntityrelationextraction,Grammarfeature,Heuristicrule,Semanticsequencekernel实体关系抽取是指自动识别包含在自然语言文本中的两个实体之间的预定义关系。所谓实体是指文本中包含的特定事实信息,如人物、组织机构、地理位置等。实体关系抽取在数据结构化、信息检索和自动应答系统等领域有着重要的研究意义。美国国家标准技术研究院(NIST)在2008年组织的自动内容抽取(ACE,AutomaticContentExtraction)评测中定义了7种实体关系类型和18种子类型。目前,针对中文语料的实体关系抽取研究方法主要有基于特征向量的方法[1,2]、基于改进的语义序列核方法[3]和基于Bootstrapping的方法[4]。这些方法大都只考虑一个句子只存在两个实体情况下的关系抽取。实际上,包含3个或3个以上实体的句子是很多的,正确地抽取这些实体的关系是个研究难点。大量针对英文语料的实体关系抽取研究从实验上证明,句子的句法信息和语义信息对于实体关系的抽取非常有效。本文的主要工作集中于研究包含多个实体的句子的实体关系抽取;结合中文语料的语法特征,对已有的基于最短依存路径核的中文实体关系抽取方法进行改进,使之更适合于包含多个实体的句子的关系抽取。1相关工作在已有的中文实体关系抽取方法中,基于特征向量的方法[1,2]适合于只包含两个实体的句子的关系抽取,这是因为基于特征向量的方法主要考虑的是描述实体关系的特征词的提取。当句子中存在3个或3个以上的实体时,不仅需要提取出描述实体关系的特征词,还需要区别出该特征词的归属,即区别该特征词描述的是哪一对实体之间的关系。因此,基于特征向量的方法在处理包含多个实体的句子的关系抽取时,性能往往会很差。基于改进的语义序列核方法[3]适合于句子比较短、比较简单的情况,更好的应用应该是和基于特征向量的方法相结合。基于Bootstrapping的方法[4],关键部分是种子的选择和迭代模式的生成,而现有的模式生成只限制于包含两个实体的关系句子,关系抽取也只限于包含两个实体的关系句子。已有的加入语法信息的关系抽取方法采用的语法解析工具主要有两种:句法解析工具和依存文法解析工具。这两种工具解析的结果相对应地都有个专属的名称:句法树和依存到稿日期:2008209209返修日期:2008211226本课题受国家自然科学基金重点项目(60