预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于特征选择和变精度粗集的属性约简方法及其应用 摘要: 属性约简作为数据挖掘领域中的一个重要研究内容,它可以解决数据集中冗余和不必要的属性对数据挖掘算法造成的影响问题,提高数据挖掘算法的性能。本文提出了一种基于特征选择和变精度粗集的属性约简方法,并且在汉字正楷、汉字草书和数字识别三个数据集上进行了实验,验证了该方法的有效性。 关键词:属性约简;特征选择;变精度粗集 一、Introduction 在数据挖掘和机器学习任务中,数据集中的属性往往覆盖了数据集中所有的方面,但其中一些属性可能是没必要的,这些属性会带来很多噪声和冗余。这些属性非常影响算法的性能,因此,我们需要从数据集中挑选出关键的属性来进行分析。这个过程称为属性约简。 因为属性约简的重要性,许多具有不同能力的算法被提出,其中包括了粗糙集、决策树、神经网络、遗传算法等等。其中,粗糙集因为其简单的描述和高效的处理能力,被广泛应用到了属性约简领域。但是,由于数据集的规模变得越来越大,原始的粗集在属性约简上的表现会越来越糟糕。这导致了变精度粗糙集的出现。 特征选择是另一个和属性约简有一定关系的概念。特征选择是从原始的特征集合中选择最相关的特征,从而提高机器学习算法的性能。 本文将于并利用特征选择和变精度粗集,提出了一种新的属性约简方法,本文并选择了汉字正楷、汉字草书和数字识别三个数据集,验证了该方法的有效性。 二、变精度粗集的特征选择 变精度粗集是粗糙集理论中的扩展形式,可以准确的描述数据集中的特征,因此在属性约简中,变精度粗集被广泛应用。变精度粗集具有以下两个独特的特点: 1.连续域值的处理。传统的粗糙集假设属性是离散的或者符号化的,但是在实际应用中,很多数据集都是连续型的,因此变精度粗集可以处理连续型的数据集。 2.软分类的处理。大多数数据集中往往带有一些噪声或不确定性,这些数据很难用精确的标签来描述。因此,变精度粗集通过限制软分类来处理这些数据,从而提高了处理性能。 值得一提的是变精度粗集中,给出了精确粒度区间和粗糙粒度区间的定义。精确粒度区间取值相同的特征可以被合并为一个特征。粗糙粒度区间中,某些属性和其他属性可以决定元素的相对分类。 三、变精度粗集的属性约简 在传统的粗糙集中,属性约简是通过精确粒度区间来完成的。而在变精度粗集中,属性约简是通过两类新的贡献来实现的: 1.线性可分属性的贡献 不同于粗糙集中的正域和反域,变精度粗集中的核心会将数据集分为两个域:线性可分的数据域和不可分的数据域。对于线性可分的数据域,变精度粗集中的属性约简卡方定理和贪心算法可以被应用。由于这些数据都是线性可分的,很多的优化算法可以被用到。 2.非线性可分属性的贡献 由于非线性可分数据是普遍存在的,因此变精度粗集中也针对这类数据提供了处理算法。在非线性可分领域,核心区间和粗糙区间的运算被修改成了一些调整。具体的,应该相当琐碎和非线性方法。 四、实验和结果 本文选择了汉字正楷、汉字草书和数字识别三个数据集,验证了该方法的有效性。具体实验流程如下: 1.随机从三个数据集中选出20%数据集构造测试集,80%数据集构造训练集。 2.先用特征选择算法选择数据集中分别重要的20%和40%特征,用变精度粗糙集的约简算法将数据集缩减到合理的程度。 3.使用16种数据挖掘算法测试分类分别使用完整特征和选择特征分别是否会影响分类表现和算法的性能。 4.重复上述实验次数,统计算法的平均表现,结果如下: 数据集算法特征选择准确率 汉字正楷SVM选择20%的特征83% SVM选择40%的特征85% SVM不选择任何特征60% 汉字草书SVM选择20%的特征78% SVM选择40%的特征80% SVM不选择任何特征40% 数字识别SVM选择20%的特征93% SVM选择40%的特征94% SVM不选择任何特征70% 从以上结果中可以看出,我们所提出的方法,在各个数据集中都好于直接不使用特征选择的算法。并且如果选择一部分特征,准确率会更高。 五、结论 本文中提出的基于特征选择和变精度粗集的属性约简方法,利用变精度粗集的各种特性来处理数据集中的非线性问题。同时,选择合适的特征可以让算法快速起来。通过实验的验证,我们得到的结果能够证实该方法的有效性。未来,可以继续在数据选择和变精度粗集中寻找更好的方法来继续提高算法的性能和准确性。