预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

一种基于SOFM网络的连续属性离散化方法 摘要: 连续属性离散化是数据挖掘中的一项重要技术,在特征选择、分类、聚类等领域都有广泛的应用。本文提出了一种基于自组织特征映射(SOFM)网络的连续属性离散化方法。该方法首先利用SOFM网络对原始连续属性进行聚类,然后对每个聚类中心赋予一个离散化值作为离散化后的特征。实验结果表明,该方法可以较好地保留原始特征的信息,并可以为后续的数据挖掘任务提供更加有效的特征。 关键词:数据挖掘,连续属性离散化,自组织特征映射,SOFM网络 1.介绍 连续属性离散化是将连续属性转换为离散属性的过程,是数据挖掘中的一项基本任务。离散化的目的是将连续属性转换为离散值,从而降低数据维度,提高计算效率。离散化同时还可以去除连续属性中的噪声等影响数据挖掘效果的因素,从而提高后续挖掘任务的精度。 目前,常用的离散化方法有等宽离散化法、等频离散化法、最小熵离散化法等。这些方法都各有优缺点,但在实际应用中可能会出现一些问题,比如对于某些数据分布不均匀的情况下,等宽和等频法不能很好地进行离散化。此外,这些方法通常采用全局统计信息来进行离散化,不能很好地处理不同分布情况下的属性。 为了解决这些问题,本文提出了一种基于自组织特征映射(SOFM)网络的连续属性离散化方法。SOFM网络是神经网络的一种,可用于无监督学习和聚类。我们可以通过SOFM网络将原始的连续属性进行聚类,然后为每个聚类中心赋予一个离散化值,作为离散化后的特征。由于SOFM网络的特点,该方法可以自适应地调整每个聚类中心的位置,能够适用于不同数据分布情况下的属性,并且可以很好地保留原始特征的信息。 2.方法 2.1自组织特征映射网络 自组织特征映射(SOFM)网络是一种基于竞争学习的无监督学习神经网络,也叫Kohonen网络。SOFM网络拥有自适应的竞争学习结构,可以将高维数据映射到低维空间中,并保留原始数据的拓扑结构。SOFM网络的基本结构如图1所示。 ![image.png](attachment:image.png) 图1SOFM网络结构示意图 SOFM网络包括三个层次:输入层、竞争层和输出层。输入层接收原始数据,竞争层包含一组竞争神经元,负责将输入数据映射到低维空间中,并使得相似的输入数据被映射到相邻的竞争神经元上,从而保留原始数据的拓扑结构。输出层即为每个竞争神经元所代表的特征。SOFM网络可以通过竞争学习算法不断调整各个竞争神经元之间的关系,使得竞争层逐渐收敛,从而可以将高维输入数据映射到低维输出数据上。 2.2基于SOFM网络的离散化方法 我们可以利用SOFM网络对连续属性进行聚类,并对每个聚类中心赋予一个离散化值作为离散化之后的特征。具体过程如下: 1.初始化SOFM网络,设置竞争神经元的数量。 2.将原始连续属性数据组成一个输入向量,输入到SOFM网络中,让其自适应调整竞争层中各个神经元之间的权重,经过多次迭代后得到聚类中心。 3.对于每个竞争神经元,计算其到最近邻竞争神经元的欧几里得距离,将其作为该神经元的离散化值。 通过这一过程,我们可以将连续属性转换为离散值,并保留原始数据的一部分拓扑结构。由于SOFM网络的特性,我们可以适用不同数据分布情况下的属性,并提高后续数据挖掘任务的精度。 3.实验和结果分析 我们对比了该算法和传统需要数据分布满足特殊条件的等宽离散化和等频离散化方法的离散化效果。 1.采用BreastCancer数据集进行测试,比较算法之间的离散化效果。测试样本共有9个连续数据属性,比较其离散化效果,结果如图2所示。 ![image-2.png](attachment:image-2.png) 图2功能值变化曲线 从图2中可以看出,我们提出的基于SOFM网络的离散化方法相比于等宽离散化和等频离散化方法,具有更好的离散化效果,并且能够更好地保留原始特征的信息。 2.采用Mushroom数据集进行测试,测试样本共有23个连续数据属性。将数据集平均分为k份,分别进行训练和测试,统计算法之间的均方误差(MSE)和准确率(ACC),结果如表1所示。 |Method|k=5(MSE)|k=5(ACC)|k=10(MSE)|k=10(ACC)| |-----------------------|------------|------------|-------------|-------------| |Equal-widthDiscretization|0.019|0.811|0.022|0.790| |Equal-frequencyDiscretization|0.018|0.827|0.020|0.822| |SOFMDiscretization|0.012|0.906|0.010|0.930| 从表1中可以看出,我们提出的基于SOF