预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

年月云南师范大学学报 20101Jan.,2010 第42卷第1期(哲学社会科学版)Vol.42No.1 【主持人语】本期的“语言国情研究”栏目关注汉语的语言信息处理研究,特别是词汇语 义的计算机处理。在自然语言中,一词多义是非常普遍的现象,因此要实现对文本内容的理解 和自动处理,必须面对如何识别多义词的不同词义这个问题。词义消歧研究就是为解决这个 问题而产生的,并随着研究的发展,逐渐成为自然语言处理的基础性工作,是许多基于内容理 解的自然语言处理任务的必要环节。在词义消歧研究中,词义知识来源、消歧线索、消歧方法 是需要特别关注的问题。词典是词义消歧最常用最基本的知识来源,但由于传统词典是面向 人的使用而设计的,用于计算机处理时,有诸多问题需要解决,例如义项分立规则的不明确、义 项之间的区分线索不清晰等。在消歧线索方面,词类、搭配、释义文本都是常用的信息,其中词 类的作用举足轻重,有助于大幅降低歧义消解的复杂度。在具体的消歧方法上,偏向计算机或 语言学的研究者侧重点有所不同,侧重语言学依据的研究者强调通过分析多义词的性质寻找 更有针对性的消歧方法。本期的三篇论文分别聚焦于这几个点,依次讨论了多义词义项划分、 使用词类区分词义和多义动词的消歧策略,希望这些讨论有助于吸引更多学者关注汉语语言 信息处理研究,推动汉语的信息化进程。(本期栏目学科主持人简介:靳光瑾(1952—),女,博 士,教育部语言文字应用研究所研究员,教育部语言文字应用研究所副所长,国家语委语言文 字规范标准测查认证中心主任,中国辞书学会副会长。主要研究方向为计算机语言学) 词典多义词义项关系与词义区分3 肖航 (教育部语言文字应用研究所,北京100010) [摘要]从为语料库标注多义词词义的实践来看,词典普遍存在词义可区分性不足的情况。根 据对《现代汉语词典》的分析,本文认为词典中多义词的义项之间存在重叠、相离、包含等关系,这些关系 对词义的准确区分带来不利影响,具体表现为词义区分线索不足、义项缺失等形式,降低了词义区分的 准确率和可操作性。本文结合词义标注语料数据对这些表现分别进行了分析,指出厘清多义词义项之 间的关系、改善词义可区分性能够提高词义消歧的准确率,同时有助于提高词典编纂的质量。 [关键词]义项划分;词义区分;词义标注;多义词;语料库 [中图分类号]H0-05[文献标识码]A[文章编号]1000-5110(2010)01-0041-06 一、引言义消歧研究的核心问题。词义标注研究在词义体 通过对语料库标注多义词词义是检验词典义系的选择上存在采用传统语文词典、语义词典等 项划分合理性和完备性的主要方式之一;[1]同时,不同的方式。以词典作为词义体系,词义标注必 建设大规模词义标注语料库也是自然语言处理研须面对词典义项划分中的问题。从现有的研究来 究的一个重要任务。[2]一般而言,语料库词义标注看,词义标注主要存在两大难点,都与词典的义项 是指给语料中的多义词标注正确的词义,为语料划分情况有关。第一个难点是词典的义项划分是 库添加词汇语义标记的过程。词义标注语料库在否具有足够的清晰度,具有足够多的区分线索。 词典编纂、语言处理研究中起着基础性资源的根据词典标注词义,势必要了解词典的释义过程, 作用。特别是释义的规则和义项分立的原则,而从目前 词义的可区分性及区分方式是词义标注和词词典释义本身来看,很多多义词的词义之间区分 3[收稿日期]2009-12-28 [作者简介]肖航(1974—),男,福建尤溪人,教育部语言文字应用研究所助理研究员,新加坡国立大学研究生毕 业,研究方向为计算语言学。 ··云南师范大学学报哲学社会科学版第卷 44()42 线索不够清晰,词义标注很难达到高准确率。[3]根辑关系表现出来,因而分析多义词义项之间存在 据调查,母语人也无法只依据词典释义为语料中的关系对寻找有效区分词义的方法有着重要 的全部多义词标注准确词义,不同标注者之间的意义。 标注一致性非常低;这种情况不仅限于某种特定本文的研究基于华文教材词义标注语料 语言,英语、汉语等不同语言的词典都存在同样的库①建设实践。目前,该语料库收入了人民教育 问题。[4]第二个难点是多义词义项划分是否完备,出版社等5个出版社的中小学语文教材,采用《现 是否能够涵盖词语的语言使用情况。[5],[6]标注过代汉语词典》(第五版)[11]作为词义体系进行词义 程中具体表现为词典给出的词义并不能覆盖语料标注,已经标注2400多个多义实词(限于名词、动 库中词语所有使用情况,无法对语料中的所有词词和形容词)的词义,总字数达到200万字。本文 标注准确的词典义项。因此,对语言处理研究而尝试结合词义标注语料对《现代汉语词典》中多义 言,词典的义项划分需要有更为明确的规则和方词的义项划分