预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

深圳职业技术学院学报 2004年第4期JournalofShenzhenPolytechnicNO.4.2004 一个基于改进的反序分词词典的中文分词算法 赵艳红,2费洪晓 (1.中南大学信息科学与工程学院,湖南长沙410083: 2.深圳职业技术学院电子与信息工程学院,广东深圳518055) 摘要:中丈分词是中丈信息处理最重要的预处理。文章对传统的反序分词词典进行了改进,设计了反序 词典词根HASH表,并给出了相应的分词算法,实验表明,改进是有效的。 关键词:中丈分词;分词词典;匹配 中图分类号:TP312文献标识码:A文章编号:1672—0318(2004)04—0028—04 方向不同,规则分词可以分为正向匹配和逆向匹配; 1中文分词 按照匹配的长度不同,可以分为最大匹配和最短匹配。 随着互联网上中文信息的迅速增加,怎样从由于中文单词成词的特点,正向最小匹配和逆 网上快速、准确地获取中文信息已经成为一个重向最小匹配一般很少使用。一般来说,逆向匹配的 要的研究课题,高性能的中文信息检索系统越来切分精度率高于正向匹配,遇到的歧义现象也少。 越受到人们的关注¨1。例如,对句子“研究生命起源”,用正向和逆向最大 分词是中文信息处理最重要的预处理,针对匹配分词,分别得到“研究生/命/起源”和“研究/ 这一课题已经进行了大量的研究,许多成果已经生命/起源”,其中正向最大匹配显然是错误的。统 被应用到汉字输入、语音识别、中文句法分析、计结果表明,单纯使用正向最大匹配的错误率为 机器翻译和中文信息检索等领域J。1/169,单纯使用逆向最大匹配的错误率为1/245。 中文与西文不同,西文在书写时词与词之间统计分词是通过对一定长度的语言材料的语言 有明显的界限——空格分开,而中文的书面形式中每个词出现的频数,分析统计结果以便提取词汇。 却是连续的汉字串,词与词之间没有什么明显的一般的基于词频的统计分词要有如下的过程: 标志。中文的形态没有西文那样丰厚,书面中文预处理阶段:将要统计分词的字符串读入内存, 的汉字基本没有形态的变化(如英语有现在进行以标点符号和禁用词为切分标志,将字符串且分成 式、过去式、过去完成式等),因此要进行语言的一些更短的短语串; 计算机处理,必须进行词的提取处理,词的提取候选词形成阶段:这一步是核心,根据统计信 在西文处理中叫取词(Stemming),在中文里叫息形成一些可能是词的候选词串; 分词(Segmentation)I6,。后处理阶段:对于相关度超过阀值的候选词还 中文分词主要有3大类方法:基于规则(分需要经过后处理,以删除一些冗余词。 词词典)的分词方法;基于词语共现的统计方法;传统分词词典存在两方面的问题,一个是采用 规则和统计并举的混合型方法。纯文本方式构建词表,数据没有经过有效的组织, 基于规则的分词主要依据的是词典信息方内部查找的计算复杂度为D()(n为词表中词条数); 法,它按一定的方法将中文字符串与词典里的词另外是最大匹配长度的确定,中文词的字数个数以 条相匹配,如果匹配成功,就切分。按照匹配的2为主,但普遍存在着不定长的现象,见表1,2。 收稿日期:2004—07—15 作者简介:赵艳红(1969一),女,湖南人,讲师,硕上,主要研究方向为软件工程和信息系统。 第4期赵艳红,费洪晓:一个基于改进的反序分词词典的中文分词算法29 表1切分词词典中词条分布表 因此MAXL的长度很难确定,如果定义为词的前缀。 典的最大汉字数,则每次分词都有若干次没有意反序分词词典(ReverseDict),就是将机器分词 义的循环,效率不高,浪费时间;如果MAXL的词典的每个词条的顺序求逆序,并且记住这个词条 长度定得比较短,则一些分词匹配不到,引起分在机器分词词典的位置(索引)。例如,在机器分词 词错误;而且我们的词典可以不断丰富,词典中词典里有一个词条“中国”则在反序分词词典表示 的最长字数也是动态在变,因此需要对逆行最大为“国中”,反序分词词典每一项包括3个元素,词、 机械分词进行改进。在机器分词词典的索引和以这个词为前缀的词的最 大长度,词典中的每一项是按ASCII码从小到大有 反序分词词典的改进 序排列的。 2.1分词词典的设计反序词典的设计如下: 分词词典(Dict),词汇知识是自然语言处理typedefstruct——SReverseDictltem 最重要的知识源,为了有效的进行分词,需要一{char*pReverseWord;//反序词条 部机器词典,我们的词典是基于词义而不是基于intnMaxLength;//包含这个词的词条最 词性的,这是因为很多词,特别是高频词,往往大长度 具有多个词性。机器词典的每一项包括2个元素:intnlndex;//