预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

数据挖掘平台中模糊聚类算法的研究与应用1 摘要数据挖掘是当前很多领域的一个研究热点,引起了大量研究人员的关注。本文具体研究了基于 目标函数的模糊聚类算法(FCM)[1],并对聚类效果的有效性和参数选择进行了详细分析。最后将该算 法应用于模型生命表的制作中。 关键字数据挖掘;模糊聚类;有效性分析 引言 数据挖掘是目前国际上数据库和信息决策领域最前沿、最活跃的研究方向之一。本文的研究主体是 数据挖掘方法中的基于目标函数的模糊聚类算法(FCM),重点是对聚类效果的分析。其中,有效性分 析的目的是得到理想的聚类数,使聚类结果最佳地反映数据集的结果;加权指数的分析是为了得到最佳 的聚类模糊性。关于有效性的实现是目前该算法的一个重点和难点问题,文中针对该问题运用一组实验 数据对效果进行了分析。本文还将该算法应用于模型生命表的制作中,取得了很好的效果。 1基于目标函数的模糊聚类算法 1.1基于目标函数的模糊聚类算法(FCM)的基本原理 设集合X={,,,}x1x2…xn中元素有m个特征,即xi=(,,)xi1…xim。要把X分为c类(2≤c≤n)。 n 设有个聚类中心,其中。取 cV={,,,}v1v2…vcvi∈{v|v=∑aixi,,}ai∈Rxi∈X i=1 m 21/2为样本与聚类中心的欧氏距离,那么理想的分类显然是使目 dik=xk−vi=[()]∑xkj−vijxkvi j=1 nc 标函数2为极小的。其中,表示样本对于聚类中心的隶属度。 JUV(,)=∑∑uik()dikUuikxkvi k==11i 1.2FCM算法的实现方法 为了灵活地变动元素的相对隶属程度,把目标函数更一般化为: nc r2 JUV(,)()=∑∑uikxk−vi k==11i 其中r≥1,是待定的参数,.是Rm空间中的任一种范数。 步骤如下: (1)取定c,2≤c≤n;取定终止条件ε;取初始化聚类中心V()0;逐步迭代(l=0,1,2,…); (2)对于V()l,修正U()l 1本文是国务院人口普查办公室重点招标项目(国人字12号)的一部分。 1 1 ,∀i,∀k,x−v≠0且x−v≠0 cx−v1kikj ∑()kir−1 j=1xk−vj (l+1) uik={1当xk−vi=0 0当xk−vj=0 n ()lr ∑()uikxk ()计算聚类中心(l0k=1 3vi=n ()lr ∑()uik k=1 (4)用一个矩阵范围比较V()l与V(l+1),对取定的ε>0(ε一般取0.001和0.01之间),若 VV(l+1)−(l)≤ε,则停止迭代,否则l=l+1,转向(2)。 1.3结果的清晰化 本算法迭代所得的U是一个模糊划分矩阵,对应着X的模糊划分,可用下述两种方法使划分清晰 化,得到X的普通分类: 方法1.∀xk∈X,若xk−vi0=minxk−vi,则将xk归入第i0类。其中vi0是第i0类的聚类中心。也 1≤i≤c 就是说,xk与哪一个聚类中心最接近,就将它归到哪一类。 方法2.在U的第k列中,若uik=max(uik),则将xk归入第i0类。也就是说,xk对哪一类的隶属度 01≤i≤c 最大,就将它归入到哪一类。这一方法实际上就是最大原则方法。 2FCM聚类算法的效果分析 2.1初始聚类中心的研究 初始聚类中心的选择一般有两种方法: ①随机法:即随机选取前c个点作为初始聚类中心。 这种方法的迭代次数多,收敛速度慢,而且可能使结果为局部最优解。 ②爬山法: 算法如下:1.选取第一个点为第一个聚类中心; 2.选出离第一个点最远的那个点为第二个聚类中心; 3.Fori=3toc,选出离已有的聚类中心的距离之和最大的那个点为第i个聚类中心。 本文采用了爬山算法,在于其能够明显减少迭代次数,并加快聚类速度。而且,能够有效的防止得 到局部最优解。 2.2有效性的研究 由于聚类是无人监督的,因此必须对聚类结果的有效性进行研究,就是应该把数据集分成几类才是 最好的,才能最佳反映数据集的结构[6]。有效性问题可以转化为最佳类别数c的确定,基本思想如下: 1.事先给定聚类数的范围[,]cmincmax,最佳聚类数在该范围中取得。 2 2.Forc=cmintocmax(或则Forc=cmaxtocmin) 2.1初始化聚类中心V 2.2应用FCM算法更新模糊分类矩阵U和聚类中心V 2.3判断收敛性,如果没有,转2.2 2.4通过有效性指标函数计算指标值dcV)( 3.比较各有效性指标值,最大(或最小)指标值cVfd)(所对应cf的就是所求的最佳聚类数。 现有的聚类有效性函数按其定义方式可分为两大类:基于数据集模糊划分和基于数据集集合结构。 其中,基于数据集模糊划分理论基础是: