预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

知识发现在数字图书馆服务中的应用研究摘要:本文通过对知识发现进行深入的研究阐述知识发现的功能及一般过程探讨将知识发现引入数字图书馆的积极意义并据此探索数字图书馆中基于知识发现的知识检索服务、个性化知识推送服务以及参考咨询服务。关键词:知识发现数字图书馆服务应用中图分类号:G2507文献标识码:A文章编号:1009-5349(2016)23-0019-02随着网络环境和数据库技术的迅猛发展人类进入到数字化信息时代人们对于世界的认识越来越全面及深入。相应地各种数据信息呈指数级的增长并涵盖到我们生活中的方方面面。在这些浩如烟海的数据中隐藏着大量的、有重要价值的信息。目前的数据库技术虽然能高效、便捷地实现对数据的查询功能但依据现有的数据检索机制和统计分析方法仍无法满足某些高层次的需求也不能从用户的需求出发实现用户获取准确信息的意图个性化的主动知识服务就更无从谈起。“数据虽然丰富但信息仍旧匮乏”用户们仍然在信息超载的环境下面临艰难抉择。数字图书馆作为集数据、信息、知识为一体的知识宝库也面临上面所述的一系列问题如何将知识发现技术应用于数字图书馆的建设中去全面提升数字图书馆的知识服务价值和创新能力是新时代、新形势下带给图书馆人的挑战。一、知识发现(一)知识发现的概念知识发现(KnowledgeDiscoveryinDatabase)一词是在1989年召开的国际联合人工智能学术会议上首次提出的其定义有多个版本目前被业界广泛认可的是法耶兹(Fayyad)提出的。知识发现是指从大量数据中获取有效的、未知的、有潜在价值的并最终可理解的模式的高级处理过程。知识发现是一个交叉的学科在计算机技术、数据库技术、机器学习技术、人工智能、统计学技术等多学科不断深度融合发酵中发展起来的。知识发现实质上是一个系统化过程其核心是实施对大量的数据仓库、知识库、数据库的分析处理及深入挖掘找寻数据间潜在的关联、规则、模式、趋势。帮助用户发现数据背后潜藏知识与信息与传统信息检索相比知识发现获取到的信息是有先前未知性、有效性和实用性三个特征。(二)知识发现的功能知识发现不同于传统的数据库定向查询、检索、调用它会对数据进行分析、统计、归类及推理以此为基础指导实际问题的求解并力图发现事务间的相互联系依据这种数据间的关联对未来的活动作出预测。知识发现技术可以从海量的、芜杂的数据中根据特定的算法筛选出有价值的、高质量的相关联数据。(三)知识发现的一般性过程关于知识发现的过程目前尚存在分歧有的学者提出“五步说”也有学者提出“六步说”本文认为知识发现的过程应分为九个步骤。①用户调查用以了解用户的需求。②数据收集创建目标数据集该数据集可以来自现有系统也可以来自数据仓库。③数据预处理及清理对上一步数据库进行纠错及除去冗余数据并将处理结果转化为数据采集工具所需的标准表达形式。④数据的简化和投影找出数据挖掘目标的有效特征降维处理或用其他变量等价表示以减少变量的有效数目。⑤根据目标选择恰当的数据挖掘方法。⑥根据模式类型选择适当的数据挖掘算法。⑦利用选定的数据挖掘方法及算法进行数据挖掘挖掘出用户感兴趣的模式。⑧评价和解释发现的模式并将其可视化。⑨知识整理及应用把挖掘出来的知识发现结果应用到用户的系统中去。以上步骤可进一步归纳为三个部分:数据准备阶段、数据挖掘阶段及数据挖掘后处理阶段。二、数字图书馆引入知识发现系统的意义(一)有利于提高数字图书馆资源的利用率在传统的数字图书馆资源建设中只是单纯地注重资源建设本身及检索传递能力而忽视了用户对于资源使用的效率问题导致了数字图书馆的资源利用率普遍偏低的现状。知识发现系统的引入使得数字图书馆在原有资源的基础上通过关联分析、分类、聚类等方法获取与原有信息存在一定关联并潜藏于文献、资料、数据背后的有价值的知识。区别于传统模式知识发现系统在用户获取知识A的同时也会将与其存在一定相关性的知识B推送给用户以供用户选择。这种推送不仅增加了知识B的利用率也使得用户发现了单纯依靠本人能力无法获取到的、所需要的知识B。由此我们可以看出知识发现的核心是对知识的挖掘它是应用户的需求而存在的在知识服务模式中应该是知识寻找用户而不仅仅局限于用户寻求知识。知识发现系统的应用有效地提高了数字图书馆资源的利用率。(二)为用户提供个性化的知识服务进入新世纪以来数据、信息、知识产生的速度越来越快数量越来越多。根据统计表明全世界每天约产生2EB的数据量(2EB既10亿GB或1000PB)加之以前积累起来的数据简直不可胜数。在如此海量的数据中充斥着相当一部分的垃圾数据(包括虚假数据及冗余数据)这些数据不但无法满足