预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于云计算的数据挖掘技术探讨1、前言毫无疑问21世纪10年代已经是不折不扣的信息时代或者也可以称之为数据时代。随着计算机的发展网络的快速普及尤其是移动互联网在近年来的蓬勃发展数据量、信息量无时无刻不在海量增长着。目前面对海量的信息找出自己真正感兴趣的内容已经成为用户最为头疼的事情数据挖掘已经成为当前最为热门的技术领域。近年来云计算成为广受关注的技术领域也使得数据挖掘平台有了新的发展方向构建新一代的数据挖掘平台来应对数据的日趋复杂庞大成为可能。云计算实为传统计算机技术与网络技术融合的产物。云计算并非简单的计算它是新型计算方式、数据存储方式、备份方式、网络资源分配方式的综合体是基于互联网的相关服务的增加、使用和交付模式。传统的数据挖掘技术是建立在数据库之上的是通过对已收集数据信息的计算找出隐藏在不同数据中的相关信息。传统的数据挖掘技术需要在海量数据的基础上进行大量的数据访问与统计计算在对数据进行挖掘的过程中需要消耗及占用大量的计算以及存储资源面对规模不断增长的海量数据需要消耗及占用大量计算及存储资源的传统数据挖掘技术显得越来越力不从心难以胜任。而云计算独特的计算模式为海量数据的挖掘提供了一种新的解决方案。2、云计算与数据挖掘2.1云计算。云计算是基于互联网的一种商业计算模式对于云计算的定义目前并没有一个统一的说法现阶段广为人接受的是美国国家标准与技术研究院对云计算所做出的定义即:云计算是一种按使用量付费的模式这种模式提供可用的、便捷的、按需的网络访问进入可配置的计算资源共享池(资源包括网络服务器存储应用软件服务)这些资源能够被快速提供只需投入很少的管理工作或与服务供应商进行很少的交互。从云计算的定义我们可以知道云计算拥有可配置的、大型的计算资源共享池这种资源共享池包括了网络、服务器、存储器、应用软件以及服务。那也就是说云计算就是对计算资源共享池的一种资源分配技术或服务它的特点是可以快速提供这些计算资源可以减少客户的管理工作。云计算将计算任务分布在了由大量计算机或服务器构成的共享资源池上大大提高了资源的有效利用使计算处理能力以及存储能力等得到了提高并且具有更好的扩展性。云计算具有虚拟化的特点用户不再受到地理位置以及终端设备的限制只要接入互联网即可获取所请求的应用服务也就是说用户只需要拥有一台可以接入互联网的终端设备即可获利所需要的各种应用服务;云计算拥有通用性的特点云平台可以构造出千万种应用用户没有应用限制在同一个云平台即可运行不同的应用;云计算具有超大规模以及高扩展性的特点对于云计算来说云的规模扩展不会影响用户应用服务的质量而目前云计算的规模已经发展出了超大型如谷歌的云计算已经拥有了上百万台的服务器;云计算拥有高可靠性以及经济性好的特点多副本容错、多计算节点同构可互换等技术确保了服务的高可靠性而云计算采用廉价的节点构成云自动化集中式管理相较于企业传统的数据中心管理成本来说经济性能十分优越。2.2数据挖掘。数据挖掘是数据库知识发现中的一个步骤数据挖掘又被称为数据采矿顾名思义数据挖掘就是在已有的海量数据中通过特定的算法来挖掘、发现有用信息或知识的过程。数据挖掘是为了解决需求的问题也是为了解决数据管理的问题。数据挖掘对于信息产业界来说是产生价值的关键环节只有将数据转冯波换成具有应用价值的信息或是知识才能具有实在商业价值。传统的数据挖掘技术是建立在数据库的基础之上的需要数据库系统提供有效的存储、索引和查询处理支持而高性能的计算技术是对海量数据进行处理的关键支撑在处理效率方面具有重要影响。随着互联网规模的不断扩大以及移动互联网的兴趣数据规模呈现更快的增长速度而对于数据挖掘的需求也日益增多这使得传统的数据挖掘技术暴露出一些问题首先是数据挖掘效率的问题传统的基于数据库的数据挖掘技术在面对如今海量数据的增长规模已经很难高效的完成计算分析任务;其次面对海量数据规模的增长传统的数据挖掘技术需要更高的软硬件成本的支持这种成本的支撑面对数据量的大规模增长是长期性的;第三传统的基于数据系统的数据挖掘技术平台架构已经无法为挖掘算法能力的提升提供更多支持算法受限于系统架构影响了数据挖掘技术的发展。3、基于云计算的数据挖掘关键技术云计算的出现为数据挖掘技术的发展提供了新的方向数据挖掘技术基于云计算可以发展出新的模式就具体的实现来说其中几个关键技术的发展至关重要。3.1云计算技术。分布式计算是云计算平台的关键技术是目前应对海量数据挖掘任务提高数据挖掘效率的有效手段之一。分布式计算包含分布式存储和并行计算两方面内容分布式存储有效解决了海量数据的存储问题实现了数据存储高容错、高安全、高性能等关键功能。目前谷歌提出的分布式文件系统理论是业界流行的分布式文件系统的基础谷歌文