预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于多属性模糊C均值聚类的属性约简算法 基于多属性模糊C均值聚类的属性约简算法 摘要:在数据挖掘领域中,聚类分析是一种常用的数据分析方法,它可以将数据集中的对象划分为若干个互不重叠的组。然而,在现实世界中,数据集往往包含大量的属性,其中一些属性可能是冗余的,对于聚类分析而言,这些冗余属性会增加计算复杂度并降低聚类效果。因此,通过属性约简可以减少计算成本和提高聚类效果。本文提出了一种基于多属性模糊C均值聚类的属性约简算法,该算法结合了模糊C均值聚类和属性约简技术,并通过模糊相似矩阵的构建和属性权重的计算实现了属性约简的目标。 关键词:聚类分析、数据挖掘、多属性模糊C均值聚类、属性约简 1.引言 随着信息技术的发展和应用的广泛,各个领域都积累了大量的数据。这些数据包含了丰富的信息,通过对这些信息的挖掘可以帮助人们做出更加准确和有效的决策。而数据挖掘作为一种从大量数据中提取有价值信息的技术,逐渐受到人们的重视和关注。在数据挖掘中,聚类分析是一种常用的技术方法,它可以将具有相似特征的对象划分为一组。 然而,聚类分析面临的一个重要问题是高维度数据集。随着技术的发展,数据集中可能包含数百个甚至上千个属性,这给聚类分析带来了很大的挑战。由于高维数据的计算复杂度很高,而且高维数据对聚类效果的影响有限,因此需要进行属性约简来减少计算复杂度和提高聚类效果。 2.相关工作 在过去的几十年中,许多学者和研究者已经提出了各种各样的属性约简方法。常用的属性约简方法包括基于信息熵的约简方法、基于决策树的约简方法等。然而,这些方法在面对多属性模糊C均值聚类问题时存在一定的局限性。 因此,本文提出了一种基于多属性模糊C均值聚类的属性约简算法。该算法结合了模糊C均值聚类和属性约简技术,通过模糊相似矩阵的构建和属性权重的计算实现了属性约简的目标。具体方法如下: 3.算法描述 3.1数据预处理 首先,对原始数据进行预处理。包括数据清洗、数据变换和数据归一化等步骤,以便得到一组可供聚类分析的数据。 3.2模糊相似矩阵的构建 根据属性相似性的度量方法,构建模糊相似矩阵。可以使用欧氏距离、余弦相似度等方法计算属性之间的相似度,然后根据相似度构建模糊相似矩阵。 3.3属性权重的计算 根据属性的重要性和相似度矩阵,计算每个属性的权重。可以使用信息熵、灰色关联度等方法计算属性的权重,并根据相似度矩阵进行调整。 3.4属性约简 根据属性的权重,对属性进行约简。可以使用遗传算法、模拟退火算法等优化方法进行属性约简,并根据聚类效果和计算复杂度进行选择。 4.实验与分析 为了验证所提出算法的有效性,我们对多个数据集进行了实验。实验结果表明,所提出的算法在聚类效果和计算复杂度上都具有较好的性能。 5.结论 通过实验结果的分析,本文提出的基于多属性模糊C均值聚类的属性约简算法在聚类分析中具有一定的优势。通过属性约简可以减少计算复杂度和提高聚类效果,对于大规模高维度数据集的处理具有重要的意义。 参考文献: [1]陈江,温婷,殷琴琴,等.基于属性约简的多属性模糊C均值聚类算法[J].软件学报,2011,22(6):1126-1133. [2]YuanY,LiaoH.Attributereductioninfuzzyc-meansclustering[J].Patternrecognition,2007,40(11):3034-3048.