预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第卷第期成都信息工程学院学报.年月.文章编号:..一种改进型聚类算法应用于科学数据挖掘杨朝敏李欣宇电子科技大学计算机学院四川成都摘要:聚类是数据挖掘中很重要的一部分。提出一种新的算法不仅能避免最终的结果陷入局部解而且不用预知类别就可以对大批的数据进行分类同时可以很容易的找出噪声数据。实验证明了这种算法在科学数据挖掘中是很有效的。关键词:数据挖掘;聚类分析;距离中图分类号:文献标识码:引言在已提出的基于“距离”的聚类算法中如常见的、.—算法都是随机选择初始聚类的中心点这类算法都不可避免地陷入局部最优而且在处理异常数据候不够有效在处理数据量大和维数高的科学数据时效果不好提出的改进型的基于欧氏距离的聚类算法有目的地选择初始的聚中心点通过一定的调整使聚类结果越来越紧凑并且所聚的类的顺序反映了它们之间的接近程度有效地克服了上述缺点并且在实验中被验证。背景该算法的设计与实现是国家自然科学基金项目《基于神经网络的大规模科学数据分析》.个重要模块目标是形成一个实用的科学数据挖掘工具使其能适用于科学数据分析。基本原理在把大批的数据聚成有限的几个类之前必须遵循几条合理的规则:在数据较为密集的地方设置中心;距离中心较近的数据归为一类称为中心的一邻域。聚类中心与它邻域的数据越接近则认为聚类效果越好。反复进行计算聚类中心和归类过程可以使聚类结果逐步优化。取欧氏距离来定义两个数据点之间的接近程度用广义距离来表示数据之间的接近程度取欧式距离即:~厂二二‘‘一×一式中样本⋯样本:⋯每个数据有个分量时聚类