预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110866030A(43)申请公布日2020.03.06(21)申请号201911010410.3G06N3/04(2006.01)(22)申请日2019.10.23G06N3/08(2006.01)(71)申请人中国科学院信息工程研究所地址100093北京市海淀区闵庄路甲89号申请人国网浙江省电力有限公司信息通信分公司国网电子商务有限公司(72)发明人汪秋云王旭仁罗蒙方舟王栋(74)专利代理机构北京君尚知识产权代理有限公司11200代理人司立彬(51)Int.Cl.G06F16/242(2019.01)G06K9/62(2006.01)权利要求书2页说明书13页附图4页(54)发明名称一种基于无监督学习的数据库异常访问检测方法(57)摘要本发明公开了一种基于无监督学习的数据库异常访问检测方法,其步骤包括:1)对于历史审计日志中的各查询记录,分别提取每一查询记录中的特征并根据所提取的特征生成对应用户的行为轮廓;2)对各用户的行为轮廓进行聚类,并将聚类的结果标记为对应用户的用户组别;3)利用标记了用户组别的行为轮廓进行训练,得到异常检测模块;4)对于用户提交到数据库的一查询语句,提取该查询语句中的特征;根据所提取的特征生成该用户的行为轮廓并将其输入到训练后的异常检测模块中进行检测,确定是否为异常访问。本发明极大地提高了异常访问的检测速度。CN110866030ACN110866030A权利要求书1/2页1.一种基于无监督学习的数据库异常访问检测方法,其步骤包括:1)对于历史审计日志中的各查询记录,分别提取每一查询记录中的特征并根据所提取的特征生成对应用户的行为轮廓;2)对各用户的行为轮廓进行聚类,并将聚类的结果标记为对应用户的用户组别;3)利用标记了用户组别的行为轮廓进行训练,得到异常检测模块;4)对于用户提交到数据库的一查询语句,提取该查询语句中的特征;根据所提取的特征生成该用户的行为轮廓并将其输入到训练后的异常检测模块中进行检测,确定是否为异常访问。2.如权利要求1所述的方法,其特征在于,所述特征包括:查询命令类型、查询语句检索与操作的属性、查询检索的数据表。3.如权利要求1或2所述的方法,其特征在于,所述行为轮廓为向量V(C,T,A,R);其中,C为语句命令类型,T为查询检索的数据表,A为查询语句检索的属性信息,R为查询结果所占的比例。4.如权利要求3所述的方法,其特征在于,构造一向量Q(Cm,Pr,Pa,Sr)用于验证向量V(C,T,A,R);其中,Cm表示用户命令类型,Pr表示检索表向量,Pa表示检索属性,Sr表示检索信息的比例。5.如权利要求3所述的方法,其特征在于,A为一个向量,向量的长度为所有数据表长度中的最大值,属性与向量之间的映射方式为:当查询中包含数据表中的某个属性时,将向量中该属性所在位设为1,否则为0;R为查询结果的行数与数据表的总行数之比。6.如权利要求1所述的方法,其特征在于,使用贝叶斯定理对标记了用户组别的行为轮廓进行训练,得到所述异常检测模块,其方法为:311)计算训练数据集T={(x1,y1),(x2,y2),…,(xn,yn)}的先验概率分布P(Y=yj);其中,(xn,yn)为第n个样本数据,yn为第n个样本数据的类别,xn为第n个样本数据的行为轮廓,xn={V1,V2,…,Vm},Vi为xn的第i项特征属性;312)计算训练数据集T中各类别下每个特征属性的条件概率分布P(Vi|yj);313)计算特征x的类别为yj的概率P(yj|x);其中,x代表x1~xn中任意一特征;314)根据步骤313)的计算结果,若有P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},则x∈yk,即特征x属于输出类别yk。7.如权利要求1所述的方法,其特征在于,使用C4.5决策树算法对标记了用户组别的行为轮廓进行训练,得到所述异常检测模块,其方法为:321)设用于训练的行为轮廓的样本集D={V1,V2,…,Vm},有n个类Ck,k=1,2,…,n;其中,对于任一样本Vi,根据Vi中特征A的取值将数据集D划分为m个子集{D1,D2,…,Dm};322)生成一结点node;如果D中数据全部属于同一类别Ck,则将node标记为类别Ck叶子结点;如果特征A为空集或者D中数据在A上取值相同,则将node标记为叶结点,其类别标记为D中样本数最多的类;323)遍历A中所有特征,选择最优划分;输出以node为根结点的一棵决策树;其中,选择最优划分的方法为:3231)计算数据集D的熵H(D),计算特征A对数据集D的条件熵H(D|A);3232)计算特征A的信息增益G(D,A)=H(D)-H(D|A);2CN110866030