预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108805156A(43)申请公布日2018.11.13(21)申请号201810291375.6(22)申请日2018.04.03(71)申请人西安理工大学地址710048陕西省西安市金花南路5号(72)发明人姚全珠李莎莎费蓉范慧敏白赞(74)专利代理机构西安弘理专利事务所61214代理人许志蛟(51)Int.Cl.G06K9/62(2006.01)权利要求书3页说明书8页(54)发明名称一种改进的选择性朴素贝叶斯方法(57)摘要本发明公开的一种改进的选择性朴素贝叶斯方法,包括以下步骤:将WoE值和IV值引入属性选择中,得到与类别相关度较高的属性子集,构造朴素贝叶斯分类器;然后在其基础上进一步删除冗余属性,得到最优属性子集。本发明改进的选择性朴素贝叶斯方法现有的贝叶斯算法的基础上,将WoE和IV指标引入属性选择,提高朴素贝叶斯在属性冗余时的分类性能,同时在属性不冗余的情况下保持朴素贝叶斯的分类性能;根据阈值筛选得到第一轮属性子集,从而减少了遍历空间,解决了在减少属性维度的同时提高分类的正确性的问题。CN108805156ACN108805156A权利要求书1/3页1.一种改进的选择性朴素贝叶斯方法,其特征在于,包括以下步骤:步骤1,给定含有n个属性的数据集T,设S={A1,A2,…,An}为离散属性变量有限集,C={C1,C2,…,Cm}为类变量,m为类变量的取值个数,Cj为类变量的第j个取值;当讨论二分类问题,即假设j=2,C={C1,C2}时,对于任意的条件属性变量Ai,设其有Si个不同的取值即属性Ai的第k个取值表示为aik;步骤2,定义WoE指标WoE指标是对原始自变量的一种编码形式,要对一个变量进行WoE编码,需要先把这个变量进行分组处理,如公式(2)和(3):公式(2)-(3)式中:C1表示第1个训练样本的类标签,C2表示第2个训练样本的类标签,P(A=aik|C=C1)表示属性为aik、类别为C1的条件概率,P(A=aik|C=C2)表示属性为aik、类别为C2的条件概率,N(C)表示类别为C的样本数,N为数据样本总数,N(A=aik|C)表示类别和属性值为aik时的样本数;步骤3,定义IV指标IV指标是用来衡量变量的信息量,即自变量对于目标变量的影响程度,如公式(4)所示:IV(aik,C)=(P(A=aik|C=C1)-P(A=aik|C=C2))*WoE(aik,C)(4)则属性Ai的IV值为各个分组的IV值之和,即:步骤4,结合步骤1,将步骤2的WoE指标和步骤3的IV指标引入属性选择中,构造朴素贝叶斯分类器;步骤5,在步骤4的基础上,需先通过IV指标对步骤1的最原始的离散属性变量有限集S进行过滤,得到符合阈值要求的属性子集S',并对S'中的属性按照IV值大小由高到低的顺序进行排序,最后在排列有序的属性子集S'上搜索能使分类器的性能达到最优的属性集合。2.根据权利要求1所述的一种改进的选择性朴素贝叶斯方法,其特征在于,所述步骤4的具体操作为:步骤4.1,通过IV值计算从原始属性集合中筛选出与类别高度相关的属性子集:根据朴素贝叶斯加权公式可知,要对样本X进行分类需要公式(6)、公式(7):公式(6)-(7)中:P(aik|C1)与P(A=aik|C=C1)相同,表示属性为aik、类别为C1的条件概2CN108805156A权利要求书2/3页率;P(aik|C2)与P(A=aik|C=C2)相同,表示属性为aik、类别为C2的条件概率;P(C1)表示类别为C1的条件概率;P(C2)表示类别为C2的条件概率;P(C1|X)表示属性为X、类别为C1的条件概率;P(C2|X)表示属性为X、类别为C2的条件概率;X表示每个没有类标号的数据库样本用n维特征向量;步骤4.2,选取阈值进行属性过滤对公式(6)进行归一化可得公式(8):其中可知a在给定的数据集下为常量,同理,对公式(7)进行归一化可得公式(9):公式(8)-(9)中:P(C1|X)'表示归一化后属性为X、类别为C1的条件概率;P(C2|X)'表示归一化后属性为X、类别为C2的条件概率;步骤4.3,在步骤4.2中分类能力较好的属性子集上构造朴素贝叶斯分类器。3.根据权利要求2所述的一种改进的选择性朴素贝叶斯方法,其特征在于,所述步骤4.2中的阈值与IV值衡量属性与类属性的相关程度的划分如下:相关程度IV值无相关性IV<0.02弱相关性0.02≤IV<0.1中等相关0.1≤IV<0.3强相关性IV≥0.34.根据权利要求1所述的一种改进的选择性朴素贝叶斯方法,其特征在于,所述步骤5的具体操作为:步骤5.1,输入步骤1中待分类的样本数据集T,条件属性集合即离散属性变量有限集S={A1