预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于MapReduce的分治k均值聚类方法 分析基于MapReduce的分治k均值聚类方法 随着大数据时代的到来,数据聚类成为了数据挖掘的重要工具之一。聚类的目的在于把相似的数据对象分组合并成为一个集合,且不同的集合所对应的数据对象之间的差别尽可能的大,同时集合内的数据对象之间尽量的相似。进一步地进行数据分析和挖掘,使得数据能够更加的有效地利用。 在大数据时代中,K均值聚类算法是应用广泛的一种无监督学习算法,其基本思想是将数据集分成K个簇,而每个数据对象只属于其中一个簇。对于一个数据对象来说,其属于哪一个簇是由簇心来决定的,即其所属簇与其所对应的簇心之间的距离最小。 然而,传统的K-means算法由于需要全局扫描,而且运算复杂度较高,对于大量数据的处理效率不高。为此,研究人员提出了基于MapReduce的分治K均值聚类算法。 基于MapReduce的分治K均值聚类算法是将数据集分解成若干个部分后并行计算,再将结果合并得到最终的聚类结果。它将K均值聚类算法的全局性质转换成一个多阶段的分治过程,每次都选取一个最能提高聚类效果的元素作为簇心,实现了分布式化计算。 1.分治K均值聚类算法的流程 (1)分割:将整个数据集划分为若干个互不相交的子数据集。 (2)聚类:在每个子数据集上进行K均值聚类操作,得到所有子数据集上的簇。 (3)合并:将所有的子数据集的簇合并得到所有点的簇。 (4)计算簇心:根据合并后的簇重新计算各簇的簇心。 (5)判断:通过判断所有的簇心是否满足停止条件,判定算法是否结束。 (6)进入下一轮:如果停止条件不满足,返回步骤(1)。 2.基于MapReduce的分治K均值聚类的优缺点 (1)优点 a.高效:基于MapReduce的分治K均值聚类算法通过分治的思想进行计算,运算时间大大缩短。 b.可扩展性强:该算法可以处理超大数据量,可以很好地适应大数据环境的需求。 c.准确性高:该算法能够保证簇心的计算是全局最优的。 (2)缺点 a.在计算过程中,需不断地进行数据划分、合并及簇心的计算,计算繁琐。 b.基于MapReduce的分治K均值聚类算法可能会受到Hadoop的影响,如节点之间的通信开销可能会影响算法的计算速度。 3.总结 基于MapReduce的分治K均值聚类算法是一种分布式、高效的数据聚类算法,其基本思想是将数据集分解为若干个部分,通过个别部分的计算得到最终的聚类结果。由于其算法可以处理超大数据量,具有高效性、可扩展性强等优点,其在大数据环境下的应用越来越广泛。