预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共38页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

查星里三查兰堡主堡至生兰堡丝奎 基于区分矩阵的粗糙集属性约简算法在数据挖掘中的应用研究 摘要 随着信息时代的来临,人类在各种领域中面临着越来越多的数据信息。 与此同时,这些数据还在以惊人的速度不断增长。因此,为了提高工作效 率和生活质量,人们必须获取蕴藏在其中的有价值的信息。为了达到这个 目的,人们开始致力于从数据库中发现知识的研究。然而,众所周知,数 据库中往往存在冗余数据(Redundantdata)、缺失数据(Missingdata)、 不确定的数据(Incertaindata)和不一致的数据(Inconsistentdata)等诸 多情况,这些数据成了发现知识的一大障碍。因此,在从数据库中发现知 识之前必须对数据进行预处理。本论文着重研究数据挖掘中的数据的顶处 理,尤其是属性约简。 粗糙集(Roughsets)理论是由Z.Pawlak教授于20世纪80年代初提出 的一种用于处理不确定性和含糊性属性的数学工具。它的基本思想是在保 持分类能力不变的前提下,通过属性约简,导出概念的分类规则,它无需 提供相关数据集合以外的任何先验信息,适合发现数据库中隐含的、潜在 有用的规律,即属性,找出其内部数据的关联关系和特征。近年来,粗糙 集理论和应用取得了很大的成就,已成为软计算方法的重要分支,其涉及 的领域包括模式识别、机器学习、决策分析和决策支持、属性获取、属性 发现等。 太原理工大学硕士研究生学位论文 本文主要研究基于区分矩阵的粗糙集属性约简算法在数据挖掘中的应 用。首先,阐述了数据挖掘与粗糙集理论的基本知识,在分析和总结基于 粗糙集理论的数据挖掘算法的基础上,针对HORAFA算法进行了详细的分析。 HORAFA算法是基于区分矩阵的启发式属性约简算法,为了改善该算法的完 备性、提高它的属性约简效率和减少算法运行时间,因此,本文对HORAFA算 法进行了改进,提出了基于区分矩阵的HORAFA-AFVDM(HORAFAbaseon Attributefrequencyvalueofdiscernibilitymatrix)算法。该算法以 核为基础,加入属性重要性最大的属性,计算属性频率函数,即等于区分矩 阵中删除当前属性所在的元素之后,属性出现的频率。具体表示 为:f(a)=f(a)+fAI/lC’l,对于每个aEc,其中IAl是信息系统总的条件 属性个数,c’l为区分函数项中删除加入到核中的属性之后还剩的属性 个数。为了能够找到信息系统的最优约简,在此基础上增加一个反向消除 过程,从已得到的核中删除可以删除的属性,直到不能再删为止,从而保 证算法的完备性。文中通过一个实例完整说明了本方法。其后,对算法进 行具体的实现。为了在MATLAB环境下完成实验,对属性进行约简之前,首 先要对被约简的数据集进行数据预处理。文中提出了实验中数据预处理的 方法。具体过程是:将UCI数据集在SQL SERVER 2000中建立数据库,然 后,通过SQL语句将数据值限定在特定的范围之内。最后在MATLAB环境下 进行了实验,通过比较改进前后两种算法,表明HORAFA—AFVD^I算法在属性 约简情况和算法运行时间上都比HORAFA算法有明显的改进。 关键字:数据挖掘,粗糙集,属性约简,区分矩阵 Ⅱ 太原理工大学硕士研究生学位论文 THEAPPLⅢDRESEARCHONATTRⅡ;UTE REDUCTIONALGORITHMOFROUGHSETBASEDON DISCERNmILITYMATRIXINDAI'A心矾G ABSTRACT Withtheadventofinformation age,humanbeing facesmoreandmoredata ina11kindsoffields.Inthemeantime.allthedataare increasinglygrowing atall amazingspeed.In orderto improve the efficiency ofworkand quality of life,people havetoderivevaluable knowledge embeddedindatafrom databases.Forthe aim,people have begun theresearchon knowledgediscovery indatabases.Asweall knowhoweverusually therealeredundant data,missing data,uncertaindataandincon