预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111488903A(43)申请公布日2020.08.04(21)申请号202010109760.1(22)申请日2020.02.22(71)申请人西安理工大学地址710048陕西省西安市碑林区金花南路5号(72)发明人周红芳张家炜(74)专利代理机构西安弘理专利事务所61214代理人张皎(51)Int.Cl.G06K9/62(2006.01)权利要求书2页说明书14页附图3页(54)发明名称基于特征权重的决策树特征选择方法(57)摘要本发明公开了一种基于特征权重的决策树特征选择算法,具体按照以下步骤实施:步骤1、对数据集进行预处理,得到预处理数据集;步骤2、判断数据集中是否有连续特征:对连续特征使用K-Means聚类算法进行离散化处理,非连续特征直接进入下一步;步骤3、使用改进后的ReliefF算法对经过步骤2处理过的数据集中的特征集进行过滤,保留在样本分类时与类别相关性高的特征;步骤4、使用经过步骤3过滤得到的特征集构造决策树。通过本发明的方法能够提供特征选择分类准确率,提高F1值。CN111488903ACN111488903A权利要求书1/2页1.基于特征权重的决策树特征选择算法,其特征在于,具体按照以下步骤实施:步骤1、对数据集进行预处理,得到预处理数据集,其中,数据集包含M个特征和N个样本,N个样本分布在K个类别中,特征集F={f1,f2,...fM},样本集S={s1,s2,...sN},类别C={c1,c2,...cK};步骤2、判断数据集中是否有连续特征:对连续特征使用K-Means聚类算法进行离散化处理,非连续特征直接进入下一步;步骤3、使用改进后的ReliefF算法对经过步骤2处理过的数据集中的特征集进行过滤,保留在样本分类时与类别相关性高的特征;步骤4、使用经过步骤3过滤得到的特征集构造决策树。2.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤1具体包括:对于数据集中的缺失值使用该列特征的所有特征值的平均值进行代替;对于数据集中不符合要求的类别值,将每个特征取值转换为离散型的数字。3.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤2中对连续特征使用K-Means聚类算法进行离散化处理具体按照以下步骤实施:步骤2.1、使用轮廓系数法确定每个连续特征的聚类簇数;步骤2.2、依次将每个样本中的每个连续特征的值按照其与k个聚类中心的欧式距离的远近划分到不同的簇中,每个簇对应一个离散特征值;步骤2.3、重复以上的过程将所有连续特征都转换为离散型特征。4.根据权利要求3所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤2.1具体为:假设聚类簇数为k,设k从2到10,在数据集中随机选择一个样本i,计算与同一簇中其他样本的欧式距离的平均值a(i),欧式距离计算公式如下:同时计算样本i与其他簇中每个样本的距离的平均值b(i),轮廓系数计算公式如下:将轮廓系数值最大时对应的k值作为该连续特征的聚类簇数。5.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤3具体按照以下步骤实施:步骤3.1、在数据集中随机选择一个样本R,计算R与同类别样本中每个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本,计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类样本集中选择k个与R距离最近的样本作为不同类最近邻;步骤3.2、将步骤3.1重复M次,计算每个特征的特征权重值W(A),公式如下:对于离散型特征值,diff(A,Ix,Iy)公式如下:2CN111488903A权利要求书2/2页步骤3.3、将经过步骤3.2计算得到的每个特征的特征权重值从大到小进行排序,形成特征权重向量;步骤3.4、若特征集中特征个数为奇数,将特征权重向量中的中位数作为特征权重阈值β,若特征集中特征个数为偶数,将特征权重向量的最中间两个数的平均值作为特征权重阈值β;步骤3.5、使用步骤3.4得到的特征权重阈值β对特征集进行过滤,将特征集中特征权重值小于β的特征进行删除,保留特征权重值大于等于β的特征。6.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤4具体按照以下步骤实施:步骤4.1、构造决策树的每一层时计算每个特征的特征权重值;步骤4.2、选择特征权重值最大的特征作为划分特征,并将该特征从特征集中删除,进行递归构造决策树,直到达到构造决策树的终止条件,形成一个决策树。7.根据权利要求6所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤4.1具体按照以下步骤实施:步骤4.1.1、在数据集中随机选择一个样本R,计算R与同类别样本中每个样本间