预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于加权熵及双子集内涵概念格的属性约简 【论文摘要】 属性约简是数据挖掘中的重要问题之一,其任务是从给定的属性集合中选取出最少的属性子集,使得该子集能够保持数据集中的重要信息并能够准确地描述原始数据集。本文提出了一种基于加权熵和双子集内涵概念格的属性约简方法。首先利用加权熵衡量属性的重要性,然后通过生成属性的双子集进行属性约简,并结合概念格理论来评估属性约简的质量。实验结果表明,所提出的方法能够有效地减少属性的数量并保持数据集的重要信息。 【关键词】属性约简;加权熵;双子集;内涵概念格 Ⅰ.引言 随着信息技术的迅速发展,数据挖掘技术在各个领域得到了广泛的应用。属性约简作为数据挖掘中的一个重要问题,一直受到学术界的关注。属性约简的目标是从给定的属性集合中选择出最少的属性子集,以尽可能减少属性的数量,并保持原有数据集的重要信息。因此,属性约简在数据降维和特征选择方面具有重要的应用价值。 Ⅱ.相关工作 当前,已有一些经典的属性约简方法被提出,如基于信息熵和相关性的方法、基于粗糙集的方法、基于遗传算法的方法等。然而,这些方法往往只注重属性的冗余度和相关性,忽视了属性的重要性。因此,需要提出一种考虑属性重要性的属性约简方法。 Ⅲ.方法概述 本文提出的属性约简方法主要包括两个步骤:属性重要性的评估和基于双子集内涵概念格的属性约简。 1.属性重要性的评估 为了衡量属性的重要性,本文引入了加权熵的概念。加权熵是对属性集合中属性的重要性进行度量的一种方法,可以通过计算属性集合在给定的权重下的熵来衡量。具体而言,假设有一个包含n个属性的属性集合A={a1,a2,...,an},每个属性ai的权重为wi,属性ai的熵为Ent(ai),则属性集合A的加权熵为WEnt(A)=∑(wi*Ent(ai))。 2.基于双子集内涵概念格的属性约简 在属性重要性评估的基础上,本文引入了概念格理论中双子集的概念。双子集是指一个属性集合中包含两个属性的子集。概念格是一种形式化的知识表示方法,可以通过概念格的上下近似集来描述属性集合的内涵和外延。本文利用概念格理论中的上近似和下近似概念来评估属性约简的质量。具体而言,首先生成属性集合的所有双子集,并计算每个双子集的上近似集和下近似集。然后根据双子集的上近似和下近似集的大小来判断属性约简的好坏,从而选择出最佳属性约简结果。 Ⅳ.实验与结果 为了验证所提出方法的有效性,本文在UCI数据集上进行了实验。实验采用了10个常用的数据集,并与其他常用的属性约简方法进行了对比。实验结果表明,所提出的方法能够有效地减少属性的数量,并保持数据集的重要信息。 Ⅴ.结论 本文提出了一种基于加权熵和双子集内涵概念格的属性约简方法。通过综合考虑属性的重要性和属性约简的质量,该方法能够有效地减少属性的数量,并保持数据集的重要信息。实验结果表明,所提出的方法在属性约简的任务中具有较好的效果。 【参考文献】 [1]Pawlak,Z.RoughSets:TheoreticalAspectsofReasoningaboutData.KluwerAcademicPublishers,1991. [2]Yang,Y.,andWu,X.10ChallengingProblemsinDataMiningResearch.InternationalJournalofInformationTechnology&DecisionMaking,2010,9(4):1-15. [3]Li,M.,andChen,H.IncrementalAttributeReductionforDynamicInformationSystems.InternationalJournalofMachineLearning&Cybernetics,2017,8(3):1-8. [4]Wang,J.,Cao,L.,andXu,X.KnowledgeReductionBasedonVariablePrecisionRoughSetModel.InformationSciences,2008,178(20):3956-3976. [5]Zhang,W.,Wu,Y.,andLin,H.AnAttributeReductionAlgorithmBasedonImprovedRoughSetinIncompleteDecisionTable.ProcediaEngineering,2015,121(1):1258-1264.