预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

http://www.paper.edu.cn 特征加权的模糊混合目标聚类算法 陈新泉 华南理工大学计算机科学与工程学院(510640) email:chenxqscut@126.com 摘要:本文首先推导给出了FCM聚类算法与特征权重最优化相结合的优化迭代公式,从而得到一种基 于优化混合目标函数的特征加权的模糊聚类算法,这个算法可以应用到同时具有有序属性类型和无序类别 属性类型的数据点集的聚类分析中。通过Iris数据集的仿真实验,可以证实这个算法的聚类效果与目标函 数权重有一定的关系。通过对具有有序属性类型和无序类别属性的German数据集的几个实验比较和分析, 可以认为这个数据集具有复杂的分布,所以采用多于分类数目的聚类数目来进行聚类分析可以达到更好的 聚类效果,实验结果也证实了这一点。 关键词:FCM加权FCM特征权重最优化 1.引言 特征选择或特征权重的最优化是数据挖掘中的一个重要研究领域和研究难题,它与传统 的能变换原特征的数据分析方法如主充分分析(PCA)、因子分析(FA)和独立成分分析(ICA) 等有些不同。特征选择方法大致可以划分为过滤方法(filter)和包装方法(wrapper),过滤方法 一般需要先定义一个可度量特征子集的类别可分性判据的函数,通过这个目标函数采用启发 式算法或分支定界法来搜索一个可行特征子集或最优特征子集。但要寻找到一个具有递增性 的可分性判据并不容易,文献[1]上给出的几个类别可分性判据,都不能满足单调性要求, 这样就不能很好地应用到后续的搜索中来。包装方法往往是利用某种分类算法的分类正确率 作为当前的特征子集的选择判断标准,显然这种方法比较复杂,因为它对每次选择的特征子 集,都要运行一下聚类或分类算法,根据其结果来判断当前的特征子集的分类或聚类效果如 何。文献[2]给出一个将特征选择方法集成到分类和聚类算法中的框架,这个框架具有一定 的参考价值。文献[3]对最近邻算法中的实例赋以一定的权重以体现实例的重要性不同,目 的使所构造的分类器的分类效果更佳。 JoshuaZhexueHuang等人[4]将k-means聚类算法与特征权重的最优化结合起来,推出 了优化迭代公式并给出了具体的算法步骤及算法分析。 2.模糊C均值聚类算法与特征权重最优化相结合的研究 2.1特征权重组的自适应优化配置问题描述 设在具有多种属性类型的维空间中,其某个区域内存在用来构造 mA1×A2×L×AmC 个聚类的数据点集ˆ,其中 S={X1,X2,L,Xn} 用来描述表示第个数据点在样本空 Xi=(xi1,xi2,L,xim)∈A1×A2×L×Am(i=1,2,L,n)i 间中的位置。在聚类分析研究中,为了体现出每一个属性对形成具有良好结构聚类子集的不 同作用,为了描述数据点Xi和Xj之间的差异,可定义一个带权重的“距离”度量(范数), 即 1 m2 ⎛2⎞ D(Xi,Xj)=⎜∑(wk⋅dk(xik,xjk))⎟(1) ⎝k=1⎠ 其中dk(xik,xjk)根据第k个属性的类型决定其具体定义式。如果第k个属性是无序类 -1- http://www.paper.edu.cn 0,xik=xjk 别属性,则定义为dk(xik,xjk)={;如果第k个属性是有序属性,则定义为 1,xik≠xjk m 。一般采用约束条件,,是 dk(xik,xjk)=xik−xjk∑wk=m0≤wk≤m(k=1,2,L,m) k=1 为了与欧氏距离定义中特征权重全为1在特征权重总和上相等。 2.2k-means聚类算法与特征权重最优化相结合的研究 JoshuaZhexueHuang[4]等人将k-means聚类算法与特征权重最优化相结合起来的算法 命名为W-k-MEANSTYPEALGORITHMS,这个算法所定义的优化目标函数为 nCm q2 (2) P(U,V,W)=∑∑∑()uij⋅wk⋅dk(xik,vjk) i==11jk=1 这个算法分别对硬划分隶属矩阵U,聚类中心点集V,特征权重向量W进行逐步优化, 最终达到对目标函数的优化效果。 2.3FCM聚类算法与特征权重最优化相结合的研究 借鉴文献[4]所定义的目标函数和一个基于特征优化的聚类分析中所采用的混合目标函 数[5],这里可定义一个含有模糊隶属度的聚类准则混合目标函数。首先定义 nCm rq2 Emin(U,V,W)=∑∑∑()uij⋅wk⋅dk(xik,vjk) i==11jk=1 C−1Cm q2 和,则混合目标函数可定义为 Emax(V,W)=∑∑∑(wk⋅dk(vjk,vlk)) j=+11l==jk1 Min{E(U,V,W)=λ⋅Emin(U,V,W)−(1−λ)⋅Emax(V,W)} nCmC−1Cm =rq2q2 λ⋅∑