预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于粒化单调的不完备混合型数据增量式属性约简算法 简介: 属性约简是数据挖掘中十分重要的一个任务。在实际应用中,属性数量往往很大,但不是所有属性都对目标变量具有重要的贡献,因此需要对属性进行约简,即从原始属性集合中选择出一个子集,使得在该子集上进行分类和预测等任务的性能不差于在原始属性集合上的性能。本篇论文研究了一种基于粒化单调的不完备混合型数据增量式属性约简算法。 一、背景 数据挖掘中的预处理任务包括数据清洗、数据集成、数据转换、数据规约等。在数据规约中,属性约简是一项被广泛使用的任务,其目的是减少属性数量同时保留数据集的特征。属性约简方法一般可以分为依据监督信息的属性约简和不依赖监督信息的属性约简,其中依赖监督信息的属性约简更为常见。属性约简算法一般可以被分为两类,即优化搜索算法和粗糙集算法。 二、算法描述 本论文研究的基于粒化单调的不完备混合型数据增量式属性约简算法的流程如下: 1.计算相对重要度分数 相对重要度分数是评估每个属性对数据集有多大贡献的度量。该算法可以将属性分为四个分类,并给属性打分。每个属性的分类和分数可通过调用粗糙集方法得到。通过对训练集进行处理得到各个属性的粗糙值和条件熵值,利用公式计算出相对重要度分数。 2.计算属性值单调性 属性值单调性描述属性在数据集上的表现,即在相邻数据点上属性变化的趋势。通过这种方式,可以评估属性对样本的分类或预测结果的影响。根据粗糙集理论,可以通过计算属性的下近似和上近似,评估属性的单调性。 3.粒化属性 在这个步骤中,算法将属性按照单调性分类,以便为下一步属性约简作准备。例如,如果属性A是单调递增的,则该算法将属性分为不同的集合,依次存储在相应的数据结构中。 4.属性约简 基于单调性进行属性约简。算法首先选取一个属性集进行分类,寻找最优属性集。通过将不同的属性组合应用于分类器,可以计算每个属性集的性能。最优属性集是指性能最好的属性集,即使我们删除其中的任何属性,分类器的性能都将下降。 5.增量式属性约简 为了解决数据挖掘任务中不断增长的数据量和属性数量的问题,提出增量式属性约简方法。该方法在已有的约简子集上进行更新,不需要对整个数据集进行重新处理。这样可以减少计算时间并与现有数据进行关联。 三、实验结果与分析 算法在多个数据集上进行了测试,包括Iris,Wine和BreastCancer等数据集。测试结果表明,本算法具有良好的属性约简性能,在大多数数据集上达到了最优精度。 总的来说,本论文提出的基于粒化单调的不完备混合型数据增量式属性约简算法可以有效地提高属性约简的效率和准确性。该算法利用粗糙集方法获取相对重要度分数、属性值单调性和属性粒化。这些方法相结合实现了增量式属性约简,使得算法不需要重新对整个数据集进行处理。该算法在多个不同的数据集上进行测试,结果表明算法具有良好的属性约简性能,在大多数数据集上达到了最优分类精度。