预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109145308A(43)申请公布日2019.01.04(21)申请号201811134941.9(22)申请日2018.09.28(71)申请人乐山师范学院地址614000四川省乐山市市中区滨河路778号(72)发明人敬思远杨骏孙锐郭肇毅(74)专利代理机构成都方圆聿联专利代理事务所(普通合伙)51241代理人李鹏(51)Int.Cl.G06F17/27(2006.01)权利要求书3页说明书6页附图2页(54)发明名称一种基于改进朴素贝叶斯的涉密文本识别方法(57)摘要本发明公开了一种基于改进朴素贝叶斯的涉密文本识别方法,包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;S2.加载增量式学习得到的朴素贝叶斯模型;S3.读取待识别的文本;S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。本发明中,基于朴素贝叶斯加权模型使得学习更加合理,并提出了特征权重的增量学习方案,能够大幅提升涉密文本检测的准确率;基于涉密特征空间改变的进行增量学习,简单有效地解决了有新的涉密特征加入或者有旧的涉密特征的密级下降的问题。CN109145308ACN109145308A权利要求书1/3页1.一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;S2.加载增量式学习得到的朴素贝叶斯模型;S3.读取待识别的文本;S4.利用朴素贝叶斯模型对文本进行识别,并标注其对应的密级。2.根据权利要求1所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:还包括识别结果上传步骤:将步骤S4的识别结果上传到统一的控制中心。3.根据权利要求1所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S1包括以下子步骤:S101.构建朴素贝叶斯模型对带有用户标注标签的样本进行识别;S102.统一控制中心管理员将识别出的标签与用户标注的标签进行对比,如果是识别错误的,就将该样本及其正确标签加入到样本库;S103.构建朴素贝叶斯加权模型;S104.涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,基于涉密特征空间改变的进行增量学习;S105.根据样本库和涉密特征库的变化进行增量式学习;S106.将学习后的模型写入到朴素贝叶斯模型中,并通知系统进行重新加载。4.根据权利要求3所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S101包括:第一、构建朴素贝叶斯模型:设涉密文本的样本空间D由特征空间W={w1,w2,…,wn}和类别空间C={c1,c2,…,cm}组成;样本空间D即文本中包含的词,类别空间C即涉密文本的密级;对一个给定文本d={w1,w2,…,wl},朴素贝叶斯模型通过计算该文本属于各类别的后验概率,对其所属类别进行判别;哪个类别的后验概率大,该文本的检测结果就是对应的那个类别,判别式如下:其中P(ci)表示类别的先验概率;P(wj|ci)表示在类别ci条件下,特征wj出现的概率:其中|C|、|D|和|W|分别表示类别空间、样本空间和特征空间的大小;count(ci)表示属于类别ci的样本数,count(wj∧ci)表示在类别ci中出现特征wj的样本数;第二、利用朴素贝叶斯模型对带有用户标注标签的样本进行识别,得到各个样本的识别结果。5.根据权利要求3所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S103包括:第一、构建朴素贝叶斯加权模型:2CN109145308A权利要求书2/3页λj,i表示特征空间中第j个特征属于第i个类别的权重,按照Bell_Lapadula模型,每个特征都有4个权重,分别对应公开、秘密、机密和绝密:其中TFi(wj)是文本特征wj在ci类别文本中出现的词频;IDFi(wj)是改进的逆文档频率;文本特征在类内文档数越大,在其它类中出现的文档数越小,则其权重越大。6.根据权利要求3所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S104包括:涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,新特征加入的情况:首先从与新特征同类别的其它特征中选择P(tj|ci)值最大的特征,将其所有信息均拷贝给新特征,按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计;然后从与新特征不同类别的其它特征中选择P(tj|ci)值最小的特征,将其所有信息均拷贝给新特征,然后按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计;对于旧特征涉密特征密级发生变化的情况同理,首先从与变化特征同类别的其它特征中选择P(tj|ci)值最大的特征,将