预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

万方数据 中文领域本体学习中术语的自动抽取木“re(d0眦hDOCTOR,嘴:DISEASE)厂[互面二二二]L——————ja卫埔———————一温春,王晓斌,石昭祥摘要:提出一种领域术语自动抽取的混合策略,首先进行多字词候选术语抽取和分词,然后合并其结果,最后Automaticdomain—specifictermextractioninChinesedomainoritologylearningAbstract:niswords:domain·specific该方向的研究很活跃,把相关的技术称为本体学习技术BJ。相关工作第26卷第7期2009年7月计算机应用研究(电子工程学院网络工程系,合肥230037)通过领域相关度和领域主题一致度抽取出最终领域术语。在多字词抽取和最终领域术语抽取阶段分别对现有方法进行了改进,降低了字符串分解的时间复杂度并提高了领域术语抽取的准确率和召回率。实验表明,术语抽取准确率为90.64%,优于现有的抽取方法。关键词:领域术语抽取;领域主题一致度;领域本体学习;多字词候选术语;字符串分解中图分类号:TP391文献标志码:A文章编号:1001—3695(2009)07—2652.04doi:10.3969/j.issn.1001-3695.2009.07.070decomposing自20世纪90年代以来,随着知识共享、信息集成、语义Web和Web服务等技术的快速发展,本体研究在计算机领域备受关注,并逐渐成为研究的前沿和热点⋯。领域本体是对给定领域中存在的概念的一种详尽的特征化描述,它用公认的术语集合和术语之间的关系来反映该领域内的知识和知识结构。虽然目前的本体构建工具正日趋成熟,但是本体的手工构造仍是一项繁琐而辛苦的任务。如何利用知识获取技术来降低本体构建的开销是一个很有意义的研究方向。目前,国外在关于本体学习到底应该关注哪些具体的任务,文献[3]给出了一个层次模型,如图1所示,它总结了本体学习过程中所需要完成的所有子任务。从图l可以看出,对文档中的相关词语即术语进行抽取是本体学习的第一步,也是先决条件。术语是指定领域概念的语言表现,是后续执行更复杂的学习任务的基础。术语抽取阶段的任务是发现相关词语集合或表示概念和关系的符号集合。目前,许多研究者在术语抽取方面做了不少工作,通常采用基于规则的方法H1、基于统计的方法∞.60和混合方法川。从国外已有的本体学习工具来看,Hasti¨o在获取术语时,使用了基于规则的方法;Text.to.Onto【91使用加权的词频统计方法来获取术语;OntoLearnLl驯则采用了一种混合的方法,即DR+DC进行术语抽取,其中DR和DC分别表示词语的领域相关度和领域一致度。与国外相比,国内还没有支持中文的本体学习工具,研究成果也相对较少。由于中英文差别较大,对于英文适用的方法未必适用于中文,或者需要进行较大调整。在中文领域术语抽取方面,国内主要集中于两个方向:a)借鉴或者扩展DR+DC的思想.b)通过假设检验或互信息来验证字符串之间的紧密程度进而进行术语的抽取。文献[1l,12]是第一种思想的代表。其优势在于引入了支撑领域文档集,将不在停用词表中的一些常用词通过无关领域文档集过滤掉,同时能忽略一些领域文档集中偶然出现的词语。其不足之处在于,目前都是使用分词程序进行文档的预处理。对于中文而言,当前的分词程序一般都是基于通用领域的,对于由多个词组成的多字词术语的处理,倾向于分割成单个词,如“涡轮增压发动机”经过分词后就会被切分为“涡轮”ComputersJul.2009WENChun,WANG(Dept.矿NetworkEngineeringlnstsute,Hefei230037,China)relevancepresentedandachieves90.64%.whichontologycandidatelⅡiom.1£Qn££也bi£坚錾缝盥I图1本体学习层次模型1收稿日期:2008.10.21;修回日期:2008-11.25基金项目:电子工程学院博士研究生创新基金资助项目(2008006)作者简介:温春(1982.)。男,河北承德人,博士研究生,主要研究方向为本体构建(wenehun2004@163.tom);王晓斌(1977.)。男,博士研究生。主要研究方向为机器学习、Web挖掘;石昭祥(1945.),男,教授,博导,主要研究方向为信号与信息处理、模式识别.ApplicationResearchofVoI.26No.7Xiao—bin,SHIZhao-xiangintroducedhybridautomatically.Atthebeginning。executedmulti.wordwordsegmentationsametimewiththreads.Th