预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于粗糙集理论的混合数据挖掘方法研究在许多实际应用领域,需要处理的数据大部分是混合类型的。最常见的混合类型的数据是混合了数值型属性和符号型属性的数据。如何针对混合属性数据进行数据挖掘已经成为一个极富挑战性的问题。本文主要基于粗糙集理论对混合数据挖掘方法展开研究。研究内容包括不完备信息系统中对象的相似性刻画方法、混合数据的特征选择与样本选择、混合数据的不平衡分类方法与异常值检测方法。主要取得了以下四个方面的研究成果:第一部分,基于已有的不完备信息系统粗糙集扩展模型,进一步研究了不完备信息系统中对象之间的相似关系刻画方法,提出了邻域-容差粗糙集模型、变精度容差粗糙集模型和变精度邻域-容差粗糙集模型并讨论了相关性质。其中,邻域-容差粗糙集模型和变精度邻域-容差粗糙集模型可以处理混合数据。另外,给出了邻域-容差关系下信息熵及条件熵的概念。并利用邻域-容差条件熵构建了一种特征选择算法。第二部分,研究了样本选择方法及基于样本的分类方法。首先提出了一种文本选择方法。这个方法用变精度容差关系来度量文本的相似度,并用变精度容差类作为文本聚类。通过只遍历一次文本集得到所有的文本聚类,而且这些文本聚类用聚类中心来表示。这样大大减少了文本的数量,可以进一步地指导文本分类。其次,基于邻域粗糙集,提出了混合数据的样本选择算法。在这个方法中,邻域决策类中的样本代表内部样本而被全部删除。通过邻域条件概率将决策边界域中的样本继续划分成噪声、靠近分类边界的样本和远离分类边界的样本。最后仅将靠近分类的边界样本放入选择样本集中。最后,提出了原型加权分类方法。这个方法先通过自产生原型算法把整个样本集划分成若干的样本子集,并用这些子集的均值作为原型点,再根据样本子集的大小给这些原型点赋予权重。然后根据原型点距离公式计算测试样本与每一类原型的距离,最后把测试样本归入距离最近的样本类中。第三部分,研究了不平衡分类问题。为了缓解SVM的分类超平面在不平衡分类中的偏置,提出了基于邻域粗糙集的合成少数类样本的过采样算法(NRS-SMOTE)。这个方法主要的特点有:1)使用欠采样技术清理噪声;2)不是合成全部的少数类样本而是只合成在分类边界的少数类样本,其中分类边界样本用邻域粗糙集中的决策边界域表示,决策边界域的大小由邻域阈值控制;3)用少数类边界样本的邻域信息粒中的类分布来决定每个少数类样本需要生成多少个合成样本。4)NRS-SMOTE算法中用到邻域信息粒,这样可以处理数值型和符号型的混合数据。第四部分,研究了混合数据的异常值检测问题。基于邻域信息粒的概念,提出了混合数据的异常检测方法。在这个方法中,样本的邻域异常指标与该样本的邻域大小和该样本的邻域密度有关。样本的邻域大小是指某样本的邻域中包含的所有样本的个数。而样本的邻域密度则反映了该样本与它的邻域中其他样本的紧密程度。