预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现周佩+朱娴睿+何汉+张毅摘要:随着当前科学技术的发展,我国各行业的发展进入了大数据时代,这就为数据挖掘算法创造了条件。在大数据环境下,为了使数据挖掘的速度得以提高,本次研究主要对基于Hadoop框架的数据挖掘算法进行研究,得出由PrePost算法改进的挖掘算法MRPrePost,这种挖掘算法是以Hadoop为平台,使编程难度得到降低,并且容易管理,通过深度优化使内存的开销得到降低,通过负载均衡的方法进行分组以使并行算法的重要性能得到提高,从而使这种算法提升运行速度,适应大数据环境下的数据挖掘。关键词:大数据环境;Hadoop框架;数据挖掘算法;研究中图分类号:TP311文献标识码:A文章编号:1009-3044(2017)29-0222-02随着当前一些设备走向高智能化、高存储量,世界的信息量早已突破ZB级别,如此繁多的信息量已经使我们进入了大数据环境中,但如何使这些信息中包含的优质信息极其潜在价值进行精准的挖掘是当前面临的工作重点以及难点。数据挖掘已经在我国开展很多年,但这一方面的发展却始终追逐不上信息量的暴增,目前所使用的数据挖掘算法在大数据环境下早已经不再适用,大数据的挖掘出现了严重的滞后的现象,因此,在大数据环境下,掌握科学的数据挖掘算法是当前的主要任务。本次研究主要通过Hadoop框架对已有的算法PrePost进行科学的改进,从而引出适合大数据环境下的数据挖掘算法MRPrePost,该算法具有计算快的特点,并能够适应关联规则数据挖掘,是当前数据挖掘算法的新模式。下文将对这种数据挖掘算法进行研究,以实现对大数据环境的适应。1相关技术的简要概述1.1关联规则数据挖掘技术通过这项技术进行数据挖掘的目的在于搜寻事务之间存在的内在联系,并且这项技术已在各行业中得以推广应用,例如当今与我们生活息息相关的超市购物,通过这项技术能够将交易记录作为依据,然后搜索相关的物品,并对顾客的购买习惯进行分析,然后根据分析的结果对货架及库存进行安排,并对顾客进行智能分类。数据挖掘的前期准备工作非常重要,首先它需要进行最小置信度以及支持数进行参数设置,从而使数据挖掘支持数高于最小支持数,从而以最小置信度使有效的管理规则数据产生。1.2Hadoop技术框架Hadoop作为Apache中的开源项目之一,其能够进行提供可靠、开源、可扩展的分布式计算应用工具。Hadoop的组件主要包括两个,分别为MapReduce以及HDFS,这两个组件的作用分别在于数据的计算和数据的存储,以下将分别介绍这两个组件。1.2.1MapReduce组件此组件是能够对数据进行计算,属于一种分布式的计算框架,能够对离线大数据进行有效的计算。并通过函数式编程这种模式,对Map函数以及Reduce函数进行合理的利用,从而实现较为繁杂的计算。分布式的计算框架如图1所示。1.2.2HDFS组件此组件是一种独立形式的文件系统,可以通过自身的存储功能对MapReduce分布式計算框架进行服务,具有高可用性以及高容错性,以块存储作为基础,并通过流数据模式来进行正常的访问,一般情况下,数据节点具备相互备份的功能。存储块的初始大小被默认为64M,使用者也可以根据自身的情况对其大小进行自定义。HDFS从结构上来讲,主要包括DataNode数据存储、NameNode目录管理以及Client访问客户端三大部分。其中DataNode主要是文件系统中基本的存储单元;NameNode主要对系统集群配置管理、命名空间以及复制存储块;Client主要是文件系统中的一种应用程序,HDFS具体的结构体系如图2所示。2大数据环境下基于Hadoop框架的数据挖掘算法本文所提及的MRPrePost数据挖掘算法使以PrePost为基础进行改进形成的,其能够进行关联规则数据挖掘。次数据挖掘算法主要包含三个重要的部分,分别为统计频繁的一项集、F-list的均匀分组以及并行挖掘频繁模式。次算法具体的流程见图3。2.1统计频繁的一项集并行计算以水平[本文来自于Www.zz-News.coM]分片的方式将数据库进行处理,以Block为各子文件进行命名,同时使其分配至各worker节点之上,并将其当做Map函数的主要输入值,对其出现的次数进行统计。此过程具体来讲主要是通过Map函数使Block文件分为pair[本文来自于wwW.zz-newS.cOm],然后将String以项集为依据进行分割,key在此为单项,通过Combine函数将同类的key值进行合并,得到新key值,并将其当做下一阶段的Reduce的输入值,最后将各节点中包含的Key值进行总体合并,并将数阈值作为依据进行对FIM1进行生成,并生成全局的F-list。2.2F-list的均匀分组为了使F-list的规模得到