预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

网络信息检索论文网络信息检索论文在学习和工作中,许多人都有过写论文的经历,对论文都不陌生吧,论文是指进行各个学术领域的研究和描述学术研究成果的文章。那要怎么写好论文呢?以下是小编收集整理的网络信息检索论文,供大家参考借鉴,希望可以帮助到有需要的朋友。网络信息检索论文篇11.1信息检索概念信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。1.2网络信息检索的原理网络信息检索工具是网络信息检索技术的实物体现。目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。①布尔逻辑模型这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。②模糊逻辑模型它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。③概率模型它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。2搜索引擎搜索引擎是目前使用最为频繁的一种网络信息检索工具。与其他工具相比,它的检全率和检准率都比较高,具有很强的使用价值和广泛的应用前景。2.1搜索引擎的工作原理作为一种www站点资源和其它网络资源进行组织和检索的检索工具,搜索引擎的检索机制一般包括数据采集和标引机制、数据组织机制和用户检索机制,基本构成如图1所示。①数据采集标引机制按照一定规律和方式对网络上www站点进行搜索,并将搜索到的www页面信息存入搜索引擎的临时数据库中。②数据组织据组织机制的主要功能是对www页面信息进行整理以形成规范的页面索引,并建立相应的索引数据库。③索引数据库是用户进行检索的基础,它的数据质量直接影响到检索效果,而搜索引擎的数据采集标和标引机制又是决定数据库质量的关键技术。④用户检索机制帮助用户以一定方式检索引擎的索引数据库,以获得符合用户需要的www站点或页面。2.2搜索引擎的分类按照用户查找的途径划分,可将搜索引擎分为如下几种:①基于关键词的搜索引擎主要通过使用自动采集软件来对网络上的数据进行采集标引,建立成索引数据库。它主要采用自动搜索和标引方式来建立和维护其索引数据库,供用户查询使用。②基于分类目录的搜索引擎一般依赖于按照某种分类标准进行人工编排的分类体系。③联合式搜索引擎是基于关键词的搜索引擎的另外一种表现形式,是后者与基于类目的搜索引擎的一种结合。2.3搜索引擎的功能目前Internet上的搜索引擎种类繁多,虽然各种搜索引擎都有自己的不同信息采集标引机制,在其他一些方面各具特色,但其基本功能却是相似的。①布尔逻辑检索这一功能使得用户能使用AND、OR和NOT来进行关键词的搭配检索。②模糊检索在用户进行检索的过程中,系统会对跟用户提供的关键词相似的词语进行检索,并返回包含关键词或是这些相似词的检索结果。③截词检索这种检索形式利用检索词的某一部分来进行检索。在搜索引擎中,用户提供包含“?”或是“*”通配符的检索项来进行检索。④限定词检索这种检索加减号检索,它用来规定检索项中必须出现或是必须不出现某些关键词。3网络信息检索的局限用户在查找网络信息资源时,不可避免的用到网络信息检索工具。检索工具的优劣很大程度的影响了用户的检索效率。虽然网络信息检索工具在最近几年有了长足的发展,但是到现在网络信息检索仍然存在着这样或是那样的局限。3.1文本信息检索的局限①网络信息标引的准确度不够检索工具对网络信息资源的标引一般都存在着栅引准确度不够的问题,检索工具经常会在返回大量垃圾信息的同时丢失有用信息。当用户要进行特定的文献检索时,有时还会发现现存的检索工具无济于事,检索出来的数据完全被无用信息所覆盖。如想要通过搜索引擎查询清朝雍正年间李卫任浙江巡抚的资料,你只能够查到大量《李卫当官》之类无用信息。②搜索引擎的查全率不高由于互联网上的信息资源以爆炸性的速度不断增长,搜索引擎采集数据的速度远远落后于信息资源的增长速度。单个搜索引擎的数据库所收集的Web页面大大不足,就是所有的搜索引擎所储存的数据也只占全球Web页面的50%强。由于这方面的原因,搜索引擎的检全率会无可避免的被降低。③搜索引擎的查准率不高一是返回的信息过多,这是