预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于lucene的校园网搜索引擎[提要]现代网络信息化水平日益提高网页信息量急剧增加搜索引擎已经成为人们获取所需知识的必要工具之一。本文结合校园网搜索引擎的具体需求介绍校园网搜索引擎的整体框架。其中lucene作为开源的检索框架具有很好的应用性。关键词:搜索引擎;lucene;网络爬虫;站内搜索一、引言21世纪是网络信息化的时代网络信息已经成为人们工作与学习中不可或缺的东西。网络在世界范围内向用户提供信息服务及其所拥有的信息资源但随着网络的蓬勃发展信息数量的快速增长当今网络上的这些海量信息形态各异且分散在网络中的各个角落。因此如何从网络上的海量信息中检索出用户所需要的信息成为了我们关注的一个重要问题。目前虽然有了像google、百度这样的通用搜索引擎但是它们并不能适合人们所有的情况和需要也没有哪个最大最好的搜索引擎可以覆盖所有的搜索范围因为不同的人群范围所需求的信息资源也是不尽相同的。人们习惯在互联网上查找信息往往在同一个网站内拥有丰富的信息资源如何在网站内部快速查找用户所要的信息也成为了人们当前关注的一个焦点。二、搜索引擎搜索引擎是一个为用户提供信息检索功能的网络工具。搜索引擎是随着互联网络信息的快速增长开始逐步发展起来的技术。在互联网发展的最初阶段网站的数量相对较少信息查找比较容易。但随着互联网技术爆炸性的发展网络上面的信息越来越多并且以各种各样的形态存在这时用户便很难找到所需要的信息一些为满足大众信息检索需求的专业搜索网站就应运而出了。如今google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中并且google在一定程度上起到了引导作用。google公司在2007年决定向小型网站提供专门的搜索服务。这些都表明小型专用的搜索引擎将在人们获取互联网信息中发挥着想当重要的作用。三、lucenelucene是apache软件基金会jakarta项目组的子项目它是一个开放源码的全文检索工具。lucene在起初是基于java开发的在网站建设中扮演的是一个全文索引工具的角色。与传统的直接从数据库中搜索记录相比较使用lucene可以大大增加搜索引擎的性能。lucene的搜索机制是基于文件索引的所以性能要比从数据库中检索更快尤其当数据量大的时候区别更加明显。lucene可以及时索引所有需要的内容并更新和删除它们。lucene的系统结构具有良好的二次开发性能。首先它的索引格式与平台无关其次它将各个组成部分封装成抽象类具体的实现定义为抽象类的实现过程并且具有强烈的面向对象的特征。(图1)四、校园网的搜索引擎框架现代网络信息化水平迅速提高校园网作为一个信息核心领域所涉及到的内容也是形态各异的。本文就如何搭建一个校园网内的搜索引擎以方便在校师生快速准确地查找各自所需信息的整体流程给出详细的介绍。搜索引擎首先根据网站的需求选择合适的网络爬虫对网络上的信息进行爬取爬取到信息之后对其中的有用信息进行提取并利用lucene对所提取到的有用信息进行索引最终输出与用户查询结果匹配度最大的信息。本文研究的校园网搜索引擎有三个功能模块:信息采集模块、信息处理模块和信息检索模块。信息采集模块顾名思义就是对网络上的信息进行采集这是整个搜索引擎系统一项最初始的准备工作也是最基础的工作。该搜索系统针对的目标群体主要是在校师生也就是说要捕获的信息主要来源于校园网络。信息处理模块主要负责对采集到的信息进行提取提取到所需的有价值的信息之后并为其建立索引为后续的信息检索模块构建好索引数据库。信息检索模块主要负责在已构建好的索引数据库中查找包含用户查询关键字在内的文本内容并负责用户从搜索界面接收关键字以及查询结果信息的返回工作。校园网的搜索引擎系统组织结构图如图2所示。(图2)(一)信息采集模块。信息采集模块是校园网搜索系统最基础的组成部分它的作用是对指定网站的页面信息进行采集并将采集到的信息保存到数据库中。这一部分主要依靠网络爬虫程序来实现。网络爬虫是一个自动获取网页内容的程序它为搜索引擎从internet网上下载网页是搜索引擎的重要组成部分。它从一个或一组初始网页的url开始获取初始网页上的url在抓取网页的过程中不断从当前页面上抽取新的url放入队列直到满足系统的一定停止条件。本文利用网络爬虫从校园网上抓取网页url、网页标题和网页文本内容并保存到已构建好的本地页面数据库中。信息处理模块从页面数据库中读取页面信息分析信息内容并为其建立索引。一个好的网页爬虫应该具有很好的灵活性和健壮性并且易于管理员操作管理。灵活性旨在爬虫能够尽可能多的适用于各种不同的场合。健壮性则要求爬虫在面对各种奇怪的规则或者链接时具有很好的处理策略以保证系统能够正常运作。人性化管理界面是爬虫网络是否受欢迎的一个重要评判标准越简单清晰越高效的管理系统会更加受到人们的欢迎。(二)信息处理模块。lu