预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

5.3Internet信息资源检索现代信息检索的历程中,我们经历了从检索工具书到计算机检索再到Internet检索的各个阶段,每个阶段、每种检索方式都有它的特点与局限性。Internet信息检索所具有的多样性、灵活性远远超出了传统的信息检索,我们需要继承与沿用在传统信息检索中心业已形成的某些检索思维模式及一些已成定势的检索方法,更需要掌握Internet信息检索所具有的特点、了解影响信息检索的因素,通过实践提高获取信息的能力。5.3.1Internet信息检索方法要想在Internet上获得自己所需要的信息,就必须知道这些信息存储在那里,也就是说要知道提供这些信息的服务器在Internet上的地址,然后通过该地址去访问服务器提供的信息。在Internet上,www信息资源的一般查询方法有:基于超文本的信息查询、基于目录的信息查询和基于搜索引擎的信息查询。1.基于超文本的信息查询通过超文本链接逐步遍历庞大的Internet,从一个www服务器到另一个www服务器,从一个目录到另一个目录,从一篇文章到另一篇文章,浏览查找所需信息的方法称为浏览,也称基于超文本的信息查询方法。基于超文本的浏览模式是一种有别于传统信息检索技术的新型检索方式,它已成为Internet上最基本的查询模式。利用浏览模式进行检索时,用户只需以一个节点作为入口,根据节点中文本的内容了解嵌入其中的热链指向的主题,然后选择自己感兴趣的节点进一步搜索。在搜索过程中,用户会发现许多相关的节点内容根本没被自己所预想到,而是在浏览过程中不断蹦出来,提醒用户注意它。随着www服务器的急剧增加,通过一步步浏览来查找所需信息已非常困难。为帮助用户快速方便地搜寻所需信息,各种www信息查询工具便应运而生,其中最有代表性的是基于目录和基于搜索引擎的信息查询工具,而利用这些工具来查找信息的方法就被称为基于目录和基于搜索引擎的信息查询方法。2.基于目录的信息查询为了帮助Internet上用户方便地查询到所需要的信息,人们按照图书馆管理书目的方法设置了目录。网上目录一般以主题方式来组织,大主题下又包括若干小主题,这样一层一层地查下去,直到比较具体的信息标题。目录存放在www服务器里,各个主题通过超文本的方式组织在一起,用户通过目录最终可得到所需信息的网址,即可到相应的地方查找信息,这种通过目录帮助的方法获得所需信息的网址继而查找信息的方法称为基于目录的信息查询方法。有许多机构专门收集Internet上的信息地址,并编制成目录提供给网上用户。Yahoo就是一个非常著名的基于目录帮助的网址,其目录按照一般主题组织,顶层按经济、计算机、教育、政治、新闻、科学等分成14大类目录,每一大类又分成若干子类,层层递进。3.基于搜索引擎的信息查询搜索引擎又称www检索工具,是www上的一种信息检索软件。www检索工具的工作原理与传统的信息检索系统类似,都是对信息集合和用户信息需求集合的匹配和选择。基于搜索工具的检索方法接近于我们通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获得检索结果(在Internet上是一系列节点地址)并输出给用户。搜索引擎实际上是Internet的服务站点,有免费为公众提供服务的,也有进行收费服务的。不同的检索服务可能会有不同界面,不同的侧重内容,但有一点是共同的,就是都有一个庞大的索引数据库。这个索引库是向用户提供检索结果的依据,其中收集了Internet上数百万甚至数千万主页信息,包括该主页的主题、地址,包含于其中的被链接文档主题,以及每个文档中出现的单词的频率、位置等。5.3.2影响Internet信息检索的因素影响Internet信息检索的因素很多,如信息资源质量、检索软件、用户水平等。1.信息资源质量对信息检索的影响丰富的信息资源为Internet信息检索系统提供了庞大的信息源,但由于其收集、加工、存储的非标准化,给信息检索带来难题。(1)信息资源收集不完整、不系统、不科学,导致信息检索必须多次进行,造成人力、物力和时间上的浪费。(2)信息资源加工处理不规范、不标准、使信息检索的查全率、查准率下降。(3)信息资源分散、无序、更换、消亡无法预测,因此用户无法判断网上有多少信息同自己需求有关,检索评价标准无法确定。(4)信息资源由于版权和知识产权问题,也给信息检索带来麻烦。由于Internet是一个非控制网络,所有网上公用信息均可以自由使用、共同分享,网上电子形式的文件极易被复制使用,这样就容易引起知识产权、版权及信息真伪等问题。(5)信息的语言障碍问题。目前Internet上80%以上的信息是以英语形式发布,英语水平低和不懂英语的人很难利用Internet上庞大的信息资源。对中国用户来说,虽然网上中文信息剧增,但还是需