预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据时代的图书馆数据挖掘技术探讨摘要:大数据的关键在于数据的分析与应用提高图书馆基于数据挖掘的处理分析能力是开展知识服务的必然要求。文章首先阐述了图书馆的大数据服务应用特征接着提出大数据阶段图书馆数据挖掘面临的挑战并给出相应对策最后探讨了数据挖掘中值得关注的重点技术以及图书馆开展知识服务应用的一些做法。关键词:大数据;数据挖掘;图书馆;信息服务1.图书馆的大数据应用特征大数据是一场革命将改变人们的生活、工作和思维方式。大数据至今并无统一定义通常以“4v”特征或对大数据进行描述性解释:规模(Volume)指数据的数量规模大;类型(Variety)指数据类型多样复杂混合结构化与非结构化多种类型;实时(Velocity)一方面是数据增长速度快另一方面要求在合理的时间内处理数据;价值(Value)反映了大数据隐含着价值转化。大数据发展的最终目标是分析挖掘数据的价值其重点在于数据的分析和应用“大”不过是信息技术不断发展所产生的海量数据的表象而己。社会进步和信息技术不断改变着图书馆的服务内容与模式网络环境下要求将这些信息资源组合成整体并延伸至更大的范围。随着数字图书馆的兴起图书馆数字化文献信息、数据库的数量种类不断增加各地市级图书馆都已具有海量信息规模比如上海图书馆提供的数据库已多达400余个。这些数据包括类型多样的文本、图片、音频与视频各类非结构化数据满足大数据的基本特征。然而这些数据资源价值远未得到有效体现与利用。一个重要的原因是缺乏有效的数据挖掘技术方法。通过人工从大量结构繁杂的数据中发现价值是难以实现的。随着大数据技术的发展与应用必然要求图书馆重点利用数据挖掘技术从大量的信息中发掘数据价值以此推出知识化产品化的服务应用。同时通过大数据处理分析对信息资源进行深度、动态、广泛的知识挖掘便于揭示信息内容中各个要素及其相互之间的联系促进信息交流实现信息资源共享提高文献信息的利用效率从而实现图书馆信息增值服务并提高信息服务的竞争力。因此探索数据挖掘方法技术提高图书馆的服务水平是亟须思考和解决的问题。2.大数据时代图书馆数据挖掘面临的挑战大数据时代的到来极大地促进了数据科学的兴起。数据科学包括用科学的方法研究数据与用数据的方法研究科学后者主要的实现方式就是数据挖掘方法与技术。数据挖掘是指从数据源中发现知识的过程。实现数据价值的关键环节在于数据的挖掘方法技术。所以如何充分有效地利用数据挖掘方法对图书馆大数据进行开发处理是开展图书馆知识服务的重要研究方向也是服务创新的关键途径与支撑服务技术。大数据时代图书馆的数据数量大、类型多对数据挖掘提出新的需求与挑战主要有以下方面。2.1大规模数据量数字馆藏数据规模与数据类型在不断增长对于数据挖掘算法的能力要求也在不断提高。传统对于大规模数据的分析一般采用随机取样以较少数据获得最多的信息其准确性会随着随机性增加而提高。这是在计算机性能较低特别是无法收集全部数据的情况下的选择。然而大数据环境数据价值隐匿于海量数据中单靠取样是无法捕捉到这些细节的需要采用全集数据进行处理分析。如此大量的数据分析仅靠单机是无法完成的分析挖掘模型必然要借助分布式计算框架比如MapReduce或者当前流行的Spark将分析模型迁移至集群计算环境。大数据应用具有实时性如智能推荐、文献关联等需要在合理的时间完成分析过程采用集群计算环境也是提高计算效率的选择。另外数据量增加的同时噪音数据也会增加。因此在数据分析之前必须进行数据清洗等预处理工作。2.2数据的高维特征图书馆数据的多样性能够提供更多维度的客观对象描述属性。数据从过去的一维、多维逐渐发展为巨量维度。虽然能够建立丰富的多维数据模型与方法但在构建的大数据特征空间中往往会超出传统方法的处理能力。可以考虑引入维度规约技术比如主成分分析、奇异值分解来降低数据维度。同时数据属性可能过于稀疏也会极大影响数据模型的有效性。2.3数据关系广泛图书馆服务应用过程中的信息、用户对象之间存在多种行为与内容关联从而组成多关系网络。大数据的多源性、多样性正是构建这种复杂关系的基础。比如用户的查询词、借阅记录、浏览记录、图书馆文献信息内容之间形成的多关系网络。特别是社交网络数据的应用更使其趋于多元化。许多图书馆实践中比如基于用户的信息推荐就是利用这种关系作为分析依据。过多关系的简单链接应用反而会削弱关键特征的作用和导致语义缺失。如何广泛利用大数据提供的各类数据类型与数据关系成为实际应用中的一个重点。实际中需要重视运用关系选择、组合及判断函数提高分析的正确性有效性。2.4数据保护要求不断增长数据是图书馆信息服务的核心和基础数据的安全性就显得尤为