预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第II页共II页目录1引言11.1中文分词的研究背景11.2中文分词的研究意义12系统简介22.1项目名称22.2开发工具22.2.1开发工具简介22.3搜索引擎简介32.4相关技术简介32.4.1Java简介32.4.2Hibernate简介32.4.3Struts简介42.4.4JSP简介42.4.5Lucene简介53系统设计73.1系统实现流程图73.2系统顺序图73.3系统状态图73.4数据库设计83.4.1数据库设计83.4.2数据连接93.5索引设计103.5.1解析器设计103.5.2分析器设计103.5.3索引建立133.6搜索设计134系统测试154.1软件测试154.2系统测试的方法164.3测试用例以及运行结果165总结215.1本文所做的主要工作215.2未来工作21参考文献23致谢25/1引言伴随着互联网技术在中国的飞速发展,互联网上的中文信息资源也成爆炸式的增长,人们在享受互联网带来便利的同时,也面临着如何在海量信息中准确、快速的找到自己所需要的信息的问题。由此互联网搜索引擎应运而生。在这样的背景下,搜索引擎的技术迅速发展。在搜索引擎领域,中文分词对搜索结果排名的影响非常大,因为搜索引擎在建立索引和检测结果的过程中,都需要先分词。然而由于中文分词的复杂性,在开发中文搜索引擎时,需要对中文的信息处理技术做专门的研究[1]。1.1中文分词的研究背景随着互联网上的信息不断膨胀以及信息形式的日渐多元化,搜索引擎所需要采集、索引和查询的内容越来越多,然而面对庞大的搜索返回结果,用户如何快速、准确的寻找自己所需要的信息是一件很费力的事情。对于用户来说,想要的只是在最短的时间内可以准确的找到自己所需要的信息。至于搜索引擎需要在一定的时间内处理多少的数据量,则不是他们考虑的范围[2]。如果分词速度太慢,分词耗用的时间太长,会严重影响搜索引擎的速度。如果分词的准确性很低,那么搜索引擎的搜索精度会大幅度降低,而用户则肯定会对现有的搜索引擎相对不满。所以对于搜索引擎来说,好的分词精确度和快速的分词速度,是至关重要的[3]。1.2中文分词的研究意义通过近几年的发展,互联网已经离我们不再遥远。互联网上的信息也在急剧膨胀,在这海量的信息中,各类信息混杂在一起,是否能让用户快速准确的找到自己所需要的信息,成为判断一款搜索引擎是否优秀的关键。在搜索引擎中,为了进行中文信息小型化,需要提取关键知识,也就是说首先要分隔出单个的中文分词,然后进行词频统计得到关键词。而关键词恰恰是影响搜索引擎搜索精度的一大关键,因此,快速准确的中文分词算法就显得尤为重要[4]。2系统简介2.1项目名称基于Lucene的图书搜索引擎2.2开发工具MyEclipse+SQLServer2.2.1开发工具简介1.MyEclipseMyEclipse是一个基于java的、开放源码的、可扩展的应用开发平台,它为编程人员提供了一流的java集成开发环境(IDE)。它是一个可以用于构建集成Web和应用程序开发工具的平台,本身并不会提供大量的功能,而是通过插件来实现程序的快速开发功能。2.TomcatTomcat一个流行的开放源码的JSP应用服务程序。它是Apache基金会的Jakarat项目中的一个核心项目,由Apache,Sun和其他一些公司及个人共同开发而成。由于有了Sun的参与和支持,最新的Servlet和JSP规范总能在Tomcat中体现。Tomcat服务器具有免费、跨平台等诸多特性,并且更新快,现在非常流行。Tomcat是一个轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试JSP程序的首选。3.SQLServerSQLServer的全称是MicrosoftSQLServer,是由美国微软公司制作并发布的一种性能优越的关系型数据库管理系统,它是一个多关系数据管理系统。它不仅是一个完整的数据库,而且具有强大的扩展性。它是Windows操作系统最为流行的数据库,比较适合小型、中型或大型应用程序的后台数据库。它也适用于电子商务,数据仓库和在线商业应用程序。系统从数据库的基础概念和应用领域中加强了对数据库的认识,目前使用的数据库一般都是关系数据库管理系统(RDBMS),它分别从关系、管理系统(MS)、数据库三个方面来定义。又从定义数据库的目标、数据库的逻辑设计、数据库的物理设计、数据库的物理实现、复查构建为数据库来构建数据库。SQL语言是一种在大多数数据库中检索用户所需数据的通用语言,它不仅在数据的安全性和稳定性上有着非凡的表现,而且在数据处理能力和效率上也无与伦比,这使它成为目前最流行的数据库查询语言之一。2.3搜索引擎简介本项目是基于Lucene的图书搜索引擎系统,在该系统中实现中文分词算法的研究与应用。通过中