预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

‘当代语言学》第卷年第期—页北京汉语自动分词研究评述母孙茂松清华大学邹嘉彦香港城市大学提要本文首先阐述了汉语自动分词研究的现实性和可能性接着围绕该研究中的三个基本问题切分歧义消解、未登录词处理和语言资源建设展开了重点讨论并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些个人意见。关键词中文信息处理汉语自动分词切分歧义消解未登录词处理语言资源建设●.汉语自动分词的现实性与可能性众所周知中文文本没有类似英文空格之类的显式表标示词的边界标志。汉语自动分词的任务通俗地说就是要由机器在中文文本中词与词之间自动加上空格。一提到自动分词通常会遇到两种比较典型的质疑。一种质疑是来自外行人的:这件事看上去平凡之极好像一点儿也不“热闹”会有什么用呢另一种质疑则是来自内行人的:自动分词研究已经紧锣密鼓地进行了十几年了可到现在也未见一个经得起考验的系统推出来与此形成鲜明对照的是日语同样也存在分词问题但已经有了圈内人士广泛认同的日语分词系统这几乎成了中文信息处理中一个“永恒”的话题。那么.到底还有没有希望搞出真正意义上的“门道”来第一种质疑关心的是自动分词的现实性问题其答案是十分明确的。当前的大环境令人鼓舞:中国正在向信息化社会迅速前进其突出表征是上中文网页的急剧增加和中文电子出版物、中文数字图书馆的迅速普及。以非受限文本为主要对象的中文自然语言处理研究于是也水涨船高重要性日益显著。而汉语自动分词是任何中文自然语言处理系统都难以回避的第一道基本“工序”其作用是怎么估计都不会过分。只有逾越这个障碍中文处理系统才称得上初步打上了“智能”的印记构建于词平面之上的各种后续语言分析手段才有展示身手的舞台。否则系统便只能被束缚在字平面上成不了太大气候。具体来说自动分词在很多现实应用领域中文文本的自动检索、过滤、分类及摘要中文文本的自动校对汉外机器翻译汉字识别与汉语语音识别的后处理汉语语音合成以句子为单位的汉字键盘输入汉字简繁体转换等中都扮演着极为重要的角色...;...;.