预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110766165A(43)申请公布日2020.02.07(21)申请号201911010913.0(22)申请日2019.10.23(71)申请人扬州大学地址225000江苏省扬州市开发区大学南路88号(72)发明人王子涵翟婷婷(74)专利代理机构南京苏科专利代理有限责任公司32102代理人董旭东陈栋智(51)Int.Cl.G06N20/00(2019.01)G06F16/955(2019.01)H04L29/06(2006.01)权利要求书2页说明书6页附图2页(54)发明名称用于恶意URL检测的在线主动机器学习方法(57)摘要本发明公开了机器学习和网络信息安全技术领域内的一种用于恶意URL检测的在线主动机器学习方法,包括以下步骤:步骤1)当互联网用户要访问一个URL时,利用自动特征提取器,对该URL进行特征提取,构成该URL的特征向量;步骤2)使用分类器对特征向量进行在线预测,判断是否为恶意;步骤3)在线预测结束后,进入标记决策阶段,判断是否对当前的URL进行标记,得到决策变量;步骤4)获得完整的URL数据信息后,利用在线模型更新程序修正当前的分类器,得到最新的分类器;步骤5)回到步骤1),等待用户浏览器发出新一轮URL请求,本发明在同等的标记选择比率下,能取得更高的在线检测准确率。CN110766165ACN110766165A权利要求书1/2页1.一种用于恶意URL检测的在线主动机器学习方法,其特征在于,包括以下步骤:步骤1)第t轮,t=1,2,...∞,当互联网用户要访问一个URL时,首先利用自动特征提取器,对该URL进行分析,提取出词汇特征、基于主机的特征和DNS特征,将所有的特征连接在一起,构成该URL的特征向量xt;步骤2)使用最新的分类器wt对xt进行在线预测:其中sgn是符号函数;如果则预测该URL是恶意的,向用户发出警告;否则,预测该URL是正常的;步骤3)在线预测结束后,进入标记决策阶段,判断是否对当前的URL进行标记;记Zt表示标记决策变量;如果Zt=1,则请网络安全专家进行标记,从而得到该URL的真实类标记yt∈{+1,-1};如果Zt=0,则决定不标记,不更新在线分类器,然后进入到步骤(5);步骤4)获得完整的URL数据信息(xt,yt)后,利用在线模型更新程序修正当前的分类器wt,得到最新的分类器wt+1;步骤5)回到步骤(1),等待用户浏览器发出第t+1轮的URL请求。2.根据权利要求1所述的用于恶意URL检测的在线主动机器学习方法,其特征在于,步骤3)中标记决策程序具体步骤如下:3-1)接收到当前URL的特征向量xt;3-2)计算其中wt是当前的预测模型,矩阵Ht-1是自适应次梯度算法中所维护的对角矩阵,存储当前特征的频度信息以衡量特征的辨别能力;3-3)令γt=pt-vt;3-4)如果γt>0,则从参数为δ/(δ+γt)的伯努利分布中提取一个随机量Zt∈{0,1};如果γt≤0,则Zt=1;其中δ>0是采样参数;步骤3-2)中,pt表示当前xt被预测的置信度,pt的值越小,表明预测的置信度越小;vt则表示当前xt中特征的辨别能力,vt的值越小,意味着xt中的非零特征出现的频率越高,表明xt中特征的辨别能力越弱;当xt被预测的置信度pt较小,同时xt包含的特征辨别能力vt较大时,根据步骤3-4)的采样规则,xt被标记的概率就越大,特别地,当vt很大时,即vt>pt时,则直接决定对xt进行标记。3.根据权利要求1或2所述的用于恶意URL检测的在线主动机器学习方法,其特征在于,步骤4)的具体步骤如下:4-1)接收到完整的URL数据信息(xt,yt);4-2)计算得到损失函数ft(w)在当前wt处的次梯度其中是铰链损失,衡量对(xt,yt)预测的不准确程度;4-3)将t=1时刻到当前时刻所获得的所有次梯度信息gt都存储在矩阵G1:t=[g1g2…gt]中,根据该矩阵计算每个特征i的频度信息st,i=||G1:t,i||2,其中G1:t,i表示矩阵G1:t的第i个行向量,st,i是向量st的第i个元素;4-4)将特征频度信息存储在对角矩阵Ht=αI+diag(st)中,其中diag(st)表示将向量st的每个元素依次放在对角矩阵的主对角线上,α是一个预定义常数,I是单位阵;4-5)设置函数选择如下一种更新规则对预测模型进行在线2CN110766165A权利要求书2/2页更新:(a)ARDA更新规则:(b)ACMD更新规则:其中η是学习步长;函数是正则化函数,用于控制模型w的复杂度,参数λ是一个预定义的常数;表示截止到t时刻邀请专家进行标记的次数,k为迭代变量;是w和wt之间关于函数ψt的Bregman距离,定义如下:其中