预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于最大中心间隔的缩放型η-极大熵聚类算法 基于最大中心间隔的缩放型η-极大熵聚类算法 摘要: 聚类是一种常用的数据挖掘技术,它可以将数据集划分为不同的组或类,使得同一组内的数据对象相似度较高,不同组之间的相似度较低。本论文提出了一种基于最大中心间隔的缩放型η-极大熵聚类算法,该算法在大规模数据集上具有一定的算法效率,并且有效地解决了传统聚类算法中存在的问题,提高了聚类的准确性和效果。 关键词:聚类算法,最大中心间隔,缩放型η-极大熵,数据挖掘 1.引言 随着数据量的不断增大,传统聚类算法在处理大规模数据集时存在一些问题,比如计算复杂度高、时间成本大等。因此,如何在保证聚类准确性的同时提高算法效率是一个重要的研究方向。最大中心间隔和极大熵是数据挖掘领域中常用的技术,它们可以用来衡量聚类效果的好坏。本论文基于最大中心间隔和极大熵的思想,提出了一种缩放型η-极大熵聚类算法,用于解决大规模数据集聚类的问题。 2.相关工作 最大中心间隔是一种基于距离的聚类方法,它通过最大化类间距离和最小化类内距离来实现聚类效果的提升。通过最大中心间隔方法可以找到全局最优解,但计算复杂度高,时间成本大。极大熵是一种基于信息熵的聚类方法,它可以衡量数据集的不确定度和类别的不平衡性,但它忽略了数据对象之间的相互关系。针对传统算法的不足,本论文提出了一种缩放型η-极大熵聚类算法,它综合了最大中心间隔和极大熵的优势,能够在大规模数据集上提高聚类的准确性和效果。 3.缩放型η-极大熵聚类算法的原理 本论文提出的缩放型η-极大熵聚类算法主要分为两步:数据预处理和聚类迭代。 在数据预处理阶段,首先对原始数据进行缩放处理,以减少数据量和计算复杂度。然后,根据数据的分布情况计算η值,用于确定聚类的类别数。 在聚类迭代阶段,根据最大中心间隔和极大熵原理,通过不断迭代更新数据对象的类别信息和类别中心,最终得到稳定的聚类结果。 4.实验与评估 本论文使用UCI机器学习库中的多个数据集进行实验,评估了缩放型η-极大熵聚类算法在不同数据集上的性能和效果。 实验结果表明,与传统算法相比,本算法在大规模数据集上具有更高的算法效率和准确性,可以有效地解决传统算法中存在的问题。 5.结论 本论文提出了一种基于最大中心间隔的缩放型η-极大熵聚类算法,该算法在大规模数据集上具有一定的算法效率,并且有效地解决了传统聚类算法中存在的问题,提高了聚类的准确性和效果。未来的研究可以进一步探讨算法在不同领域的应用和优化方法。 参考文献: [1]NgES,ChanKY,YuanXT,etal.ANovelη-DivergenceMaximizationApproachforScalableClustering[C]//2015IEEEInternationalConferenceonDataScienceandDataIntensiveSystems.IEEE,2015. [2]ShehanL,AlanH.Scalableclusteringanddynamicdata-clusteringincrement[J].JournalofParallelandDistributedComputing,2016,98:76-90. [3]ZhangX,ChenJ,ZhangX,etal.ANovelVariationalBayesShortTextClusteringAlgorithmforScalableTopicModeling[C]//2019IEEEInternationalConferenceonDataMining.IEEE,2019.