预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

文献阅读报告 课程名称:《模式识别》课程编号: 题目:基于划分的聚类算法 研究生姓名:学号: 论文评语: 成绩:任课教师: 评阅日期: 基于划分的聚类算法 2016-11-20 摘要: 聚类分析是数据挖掘的一个重要研究分支,已经提出了许多聚类算法,划分方法是其中之一。基于划分的聚类算法就是用统计分析的方法研究分类问题。本文介绍了聚类的定义以及聚类算法的种类,详细阐述了K均值聚类算法和K中心点聚类算法的基本原理并对他们的性能进行分析,对近年来各学者对基于划分的聚类算法的研究现状进行梳理,对其具体应用实例作简要介绍。 关键字:数据挖掘;聚类;K均值聚类算法;K中心点聚类算法;K众数算法;k多层次聚类算法 Partitionalclusteringalgorithms Abstract:Clusteringanalysisisanimportantbranchofdatamining,manyclusteringalgorithmshavebeenproposed,thedividingmethodisoneofthem.Basedontheclusteringalgorithmisdividedintoclassificationproblemsusingthemethodofstatisticalanalysis.Inthispaper,weintroducesthedefinitionofclusteringandtypeofclusteringalgorithm,thebasicprincipleofk-meansclusteringalgorithmandK-centerclusteringalgorithmareexpoundedindetail,wealsoanalyzetheirperformance,thescholarsinrecentyearsthestudyoftheclusteringalgorithmbasedonpartitioningpresentsituationhascarriedonthecomb,makeabriefintroductiontoitsspecificapplicationinstance. Keywords:Datamining;clustering;k-meansclusteringalgorithms;k-medoidsclusteringalgorithms;k-modesclusteringalgorithms;k-prototypeclusteringalgorithms 引言 把单个的数据对象的集合划分为相类似的样本组成的多个簇或多个类的过程,这就叫聚类[[]QIANWei-ning,ZHOUAo-ying.AnalyzingPopularClusteringAlgorithmsfromDifferentViewpoints[J].软件学报,Vol.13,No.8:1382-1394. ]。在无监督的情况下,具有独立的学习能力,这就是聚类。将数据空间中的所有数据点分别划分到不同的类中,相近距离的划分到相同类,较远距离的划分到不同类,这就是聚类的目的.聚类分析常作为一种数据的预处理过程被用于许多应用当中,它是更深一步分析数据、处理数据的基础。人们通过聚类分析这一最有效的手段来认识事物、探索事物之间的内在联系,而且,关联规则等分析算法的预处理步骤也可以用它。现在,在气象分析中,在图像处理时,在模式识别领域,在食品检验过程中,都有用到它。随着现代科技水平的不断提高、网络的迅猛发展、计算机技术的不断改革和创新,大批量的数据不断涌现。怎样从这些数据中提取有意义的信息成为人们关注的问题。这对聚类分析技术来说无疑是个巨大的挑战。只有具有处理高维的数据的能力的聚类算法才能解决该问题.研究者们开始设计各种聚类算法,于是,基于划分的聚类算法便应运而生,而且,取得了很好的效果。 正文 1聚类概述 定义 聚类的定义[[]孙吉贵,刘杰,赵连宇.聚类算法研究[J].JournalofSoftware,Vol.19,No.1,January2008,pp.48−61. ]为:在已知的数据的集合中,寻找数据点集的同类的集合.其中,每一个数据集合为一个类,还确定了一个区域,区域中的对象的密度高于其他区域中的对象的密度.聚类的实质就是“把数据集合中的所有数据分成许多的类簇,其中必有一个类簇内的实体它们都是相似的,而其它不同类簇的实体它们是不相似的;一个类簇是被测试空间中的点的会聚,而且,同一个类簇的任意两个点之间的距离小于不同的类簇的任意两个点之间的距离;一个包含的密度相对较高的点集的多维空间中的连通区域可以被描述为一个类簇,这时,它们可以借助包含的密度相对较低的点集的区