预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第53卷第2期大连理工大学学报Vol.53,No.2 2013年3月JournalofDalianUniversityofTechnologyMar.2013 文章编号:1000-8608(2013)02-0267-06 基于条件随机场的汽车领域术语抽取 李丽双*1,党延忠2,张婧1,李丹1 (1.大连理工大学计算机科学与技术学院,辽宁大连116024; 2.大连理工大学管理科学与工程学院,辽宁大连116024) 摘要:中文领域术语抽取是中文信息处理领域的一项重要研究任务,在词典构建、领域本体 构造等方面有重要的应用.采用条件随机场(conditionalrandomfields,CRFs),从汽车知识 网站上爬取网页,预处理后得到纯文本,然后分析汽车领域的术语组成特点并制定相应的语 料标注规则进行人工标注,对汽车领域进行了术语抽取.在使用词和词性特征的基础上增加 了词典特征、领域词频和背景领域词频等特征,精确率、召回率和F-值分别达到84.61%、 80.50%和82.50%.与其他方法比较说明所提出的汽车领域术语抽取方法是有效的. 关键词:信息抽取;领域术语抽取;汽车领域术语;条件随机场 中图分类号:TP391文献标志码:A 0引言马尔可夫模型对计算机术语进行识别.文献[7]将 语言学方法和统计方法进行一体化处理,同时考 术语是代表特定学科领域基本概念的语言单 虑了词所在句子的术语度,利用CRFs进行计算 元,可以是词也可以是词组,在我国又称为名词或 机领域术语抽取,F-值为79.64%.三是统计与规 科技名词.术语抽取是信息处理领域中一项重要 则相结合的方法,文献[8]首先利用语言学规则获 的研究任务,在词典编撰、领域本体构建[1]、机器 取候选术语,再利用统计的方法进行过滤.文献 翻译等领域都有重要的应用. [9]首先利用C-value和互信息获取候选术语,然 目前比较常用的术语抽取方法主要有三大 后根据术语的词性规则和词典特征进行过滤,最 类:一是基于规则的方法,主要是根据语言学及领 终F-值达到42%.本文主要就汽车领域的术语抽 域知识制定相应的规则模板与规则模板匹配的 ,取任务展开讨论,分析该领域术语的特点及抽取 视为术语,此方法受限于规则模板的质量,不够灵 难点,利用目前较为流行的条件随机场(CRFs)模 活二是基于统计的方法又分为基于统计量度和 .,型,选取词、词性、词典及频率等特征进行汽车领 统计机器学习的方法目前常用的统计量参数有 .域术语的抽取. 频率、假设检验(t检验、卡方检验等)、似然比、信 汽车领域的术语抽取 息熵和互信息.文献[2]通过计算字串的互信息得1 到候选术语最终取得的值文献提出 ,75%F-.[3]1.1汽车领域术语 一种基于质子串分解的算法,利用C-value和本文利用有监督的统计机器学习方法进行领 参数来进行术语的抽取由于没有大规模的 F-MI.域术语抽取,需要一定规模的带标签的训练语料. 标注语料,基于统计机器学习方法的中文领域术由于没有标注好的汽车领域标准语料,需要人工 语抽取的研究不多,文献[4]和[5]基于条件随机标注.目前缺少一个关于汽车领域术语的统一标 场(CRFs)对科技术语和军事领域术语进行抽取,准,本文对《汽车行业名词术语汇编》中和汽车零 F-值分别达到84.4%和76.46%.文献[6]利用隐部件相关的7525个术语进行了学习和分析,统 收稿日期:2012-01-09;修回日期:2013-01-15. 基金项目:国家自然科学基金资助项目(71031002,61173101,61173100). 作者简介:李丽双*(1967-),女,副教授.E-mail:lilishuang314@163.com. 862大连理工大学学报第53卷 计得到单词型术语占9%,由两个单词组成的复或应用会不断增多,相应的术语表示也会不断丰富. 杂术语占35%,三词术语占31%,四、五、六词术比如“绿色汽车”“零公里”是近几年提出的概念. 语分别占15%、6%、2%,七词及以上术语占2%,(2)由于汽车领域引入国外技术比较多,在表 即复杂术语一般由2~4个单词组成,占全部术语述时多采用音译词或是英文缩写,比如“皮卡” 的81%,符合中文术语的一般性特点.为了方便(“pick-up”的音译)“RV”(休闲车),而且由于使 人工标注,本文分析了汽车领域术语的特点并借用习惯等原因,在表述时使用的不同的名称代表 助前人对领域术语特点的研究成果,制定了一定同一事物,比如“皮卡”和“轿卡”就代表同一类型 的标注标准,凡是符合标注标准的词都被视为汽汽车,在使用时比较随意,没有特定的用法. 车领域的术语.标注标准如下:(3)汽车领域的术语模式多变,表现在长度、 (1)描述或表示汽车的