预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第31卷第4期武汉大学学报信息科学版Vol.31No.4 2006年4月GeomaticsandInformationScienceofWuhanUniversityApr.2006 文章编号:16718860(2006)04034804文献标志码:A GIS中文查询系统的词典设计与分词研究 徐爱萍1,2边馥苓1 (1武汉大学空间信息与数字工程研究中心,武汉市珞喻路129号,430079) (2武汉大学计算机学院,武汉市珞喻路129号,430079) 摘要:在分析系统应用领域的基础上设计了系统词典,提出了基于扩展ER空间数据库环境的全匹配分词 算法,分析了算法的复杂度,解决了切分歧义和未登录词的问题,并通过一个实验原型对设计进行了验证,为 GIS中文查询语句的正确理解提供了有效的语义信息。 关键词:GIS;中文查询;系统词典;分词;全匹配 中图法分类号:P208 国内外学者在数据库的自然语言查询中已经 进行了多年的研究和探索[1],取得了很大的进步, 但基于中文语句的数据库查询离实际应用仍然有 距离,其主要原因是汉语不同于西方语言,存在切 分歧义和未登录词问题[2]。受限语言[3]的基本思 想是在系统应用领域的基础上,对自然语言适当加 以限制,以显著降低复杂性和减少机器处理的困 图扩展空间数据库实体关系模型 难。因此,研究基于系统应用领域的中文数据库1ER Fig.1RelationshipModelofExtendedER 查询接口是可行的,因为数据库查询句相对简单, SpatialDatabaseEntity 表达的语义和查询的内容比较明确,歧义大大减 少,因此,对添加的限制是可以接受的,相关研究1.1通用词典 可参见文献[46]。但现有文献中,对空间数据库属于领域无关词类的词存储于系统的通用词 进行中文查询的研究成果还不多见。本文在分析库中[7],在系统移植时,这些词一般不需要修改。 系统应用领域的基础上设计了系统词典,提出了其分类如下:①连词、介词、量词、助词、数词和限 基于扩展ER空间数据库的全匹配分词算法。定词,在词典里没有形式描述;②查询动词放在 查询语句的最前面;③疑问词是判断查询语句结 1系统词典设计构的关键词;④关系词用于形成关系表达式,如 等于/为、以上/大于、不小于、小于/以下、不大 自然语言理解中,词典是中文分词、语法分于/不超过、不等于等,它们在词典中的语义描述 析、语义理解的基础,基于受限汉字的词典设计必分别为=、>、、<、、<>等;⑤逻辑词指 须对应用领域进行分析和研究,本系统的应用领是/真、不/假/否、或/或者、异或、并/并且/和之 域是基于扩展ER空间数据库实体关系模型(如类的词汇,它们在词典中的语义描述分别为 图1所示)的一系列中文查询语句。TRUE,FALSE,NOT,OR,XOR,AND等; 为便于实现通用、可靠的分词系统,把要提取⑥函数词对应着一个函数,如总数、平均数、计 的词条分为三大类:通用词、空间对象专用词、空数、距离、面积、长度等,它们在词典中的语义描 间关系词,分别存放在相应的词典中。述分别为SUM,AVG,COUNT,Distance 收稿日期:20060117。 项目来源:武汉市青年科技晨光计划资助项目(200450060716)。 第31卷第4期徐爱萍等:GIS中文查询系统的词典设计与分词研究349 (Shape1,Shape2),Area(Shape),Length在定义时,要避免这种二义性,在词典中不要出现 (Shape)等;⑦排序词主要用在排序短语中,如名称的词,而要用城市名称和河流名称,并 从大到小、从高到低等,这类词在词典里的形式且还要有城市的名称和河流的名称,其中, 描述为ORDERBY。城市名称和城市的名称对应的词类和描述完 1.2空间对象专用词典全相同。 所谓空间对象词,是空间对象自然语义的标表4部分专用词典 识[7]。在空间数据库中,同一层内的空间对象都Tab.4PartSpecialDictionary 有一个FID作为标识符,在相应的属性字段中,WordWordtypeDescribe 城市实体湖北及邻区中国底图 一般有一个字段存放该空间对象的自然名称,则 城市名称属性湖北及邻区中国底图.Name 该字段就可以作为空间对象的自然语义标识。湖北属性值湖北及邻区中国底图.Name= 空间对象词分为两类,一类表示空间对象集湖北 合一类表示空间对象个体。如在空间数据库中 ,,1.3空间关系词典 有一个河流层,则该层所表示的空间对象的集合空间关系词典要根据几何对象之间的空间关 为河流(名称、经度、纬度、长度,视具体情况