预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共52页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

聚类的基本步骤关于聚类:聚类应用领域关于聚类:探索性的分析方法聚类的分类:划分聚类方法层次聚类方法密度聚类方法网格聚类方法模型聚类方法在基于划分的聚类中,任务就是将数据划分成K个不相交的点集,使每个子集中的点尽可能同质。基于划分的方法,其代表算法有k-means算法、K-medoids等k-means算法k-means优缺点层次聚类方法层次聚类优缺点1、距离的定义2、常用的距离明氏距离明考夫斯基距离有以下两个缺点:(2)标准化的欧氏距离(3)马氏距离马氏距离是由印度著名统计学家马哈拉诺比斯(Mahalanobis)所定义的一种距离,其计算公式为:马氏距离又称为广义欧氏距离。马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,此时马氏距离就是标准化的欧氏距离。马氏距离不受指标量纲及指标间相关性的影响系统聚类法系统聚类法的基本步骤:1.计算n个样品两两间的距离,记作D=。2.构造n个类,每个类只包含一个样品。3.合并距离最近的两类为一新类。4.计算新类与各当前类的距离。5.重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。6.画聚类谱系图。7.决定类的个数和类。最短距离法最长距离法中间距离法重心法类平均法离差平方和法(Ward法)定义类p与q之间的距离为两类最近样品的距离,即设类p与q合并成一个新类,记为k,则k与任一类r的距离是例最短距离法3、计算新类⑥与各当前类的距离,为最小,⑦=6、按聚类的过程画聚类谱系图四、重心法(Centroid)五、类平均法(Average)六、差平方和法(Ward法)•直观上容易想到把两群样品聚为一大群,大群的离差平方和将超过原来两个群的离差平方和之和。动态聚类法----K均值法动态聚类法选择凝聚点用一个简单的例子来说明动态聚类法的工作过程。例如我们要把图中的点分成两类。快速聚类的步骤:1、随机选取两个点和作为凝聚点。2、对于任何点,分别计算3、若,则将划为第一类,否则划给第二类。于是得图()的两个类。(e)第二次分类动态聚类法选择凝聚点和确定初始分类第一、选择凝聚点第二、初始分类对于取定的凝聚点,视每个凝聚点为一类,将每个样品根据定义的距离向最近的凝聚点归类。第三、修改分类得到初始分类,计算各类的重心,以这些重心作为新的凝聚点,重新进行分类,重复步骤2,3,直到分类的结果与上一步的分类结果相同,表明分类已经合理为止。划分聚类方法层次聚类方法密度聚类方法:基于密度的聚类方法以数据集在空间分布上的稠密程度为依据进行聚类,无需预先设定簇的数量,因此特别适合对于未知内容的数据集进行聚类。网格聚类方法模型聚类方法基于密度方法的聚类基于密度方法的聚类-DBSCAN传统基于中心的密度定义为:数据集中特定点的密度通过该点ε半径之内的点计数(包括本身)来估计。显然,密度依赖于半径。基于密度方法的聚类-DBSCAN所用到的基本术语基于密度方法的聚类-DBSCAN所用到的基本术语基于密度方法的聚类-DBSCAN所用到的基本术语DBSCAN算法概念示例