预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115994224A(43)申请公布日2023.04.21(21)申请号202310105616.4G06N3/0455(2023.01)(22)申请日2023.01.29G06N3/048(2023.01)G06N3/0895(2023.01)(71)申请人浙江大学杭州国际科创中心H04L9/40(2022.01)地址310000浙江省杭州市萧山区市心北路99号5楼(72)发明人许海涛朱微凡王延斌秦湛任奎(74)专利代理机构杭州五洲普华专利代理事务所(特殊普通合伙)33260专利代理师姚宇吉(51)Int.Cl.G06F16/35(2019.01)G06F40/284(2020.01)G06F40/242(2020.01)G06F40/216(2020.01)权利要求书3页说明书11页附图3页(54)发明名称基于预训练语言模型的钓鱼URL检测方法及系统(57)摘要本发明公开一种基于训练语言模型的钓鱼URL检测方法及系统,方法包括:获取URL数据源,构建URL语料库;构建URL分词系统,训练URL分词系统及初始化词嵌入,得到URL初始化子词向量;构建多层网络编码器,基于三元组掩码对多层网络编辑器进行训练,得到模糊掩码语言模型;对模糊掩码语言模型进行微调处理以得到钓鱼URL检测任务模型;将待测URL输入至所述钓鱼URL检测任务模型中,得到检测结果。本发明具有极高的钓鱼网站检测成功率,公开数据评估上识别率达到99%以上;只需要将原始的URL送入到模型中,模型会自动地执行分词、生成词向量、特征提取以及训练;本发明的模型使得准确率提高本发明的模糊掩码语言模型,能够减小预训练的难度。CN115994224ACN115994224A权利要求书1/3页1.一种基于训练语言模型的钓鱼URL检测方法,其特征在于,包括以下步骤:获取URL数据源,构建URL语料库;基于URL语料库,构建URL分词系统,训练URL分词系统及初始化词嵌入,得到URL初始化子词向量;构建多层网络编码器,将所述URL初始化子词向量输入至所述多层网络编码器中得到位置编码,得到含有位置编码的子词序列,将含有位置编码的子词序列进行多头注意力信息加工得到注意力分数;执行掩码语言模型预训练任务:基于三元组掩码对所述多层网络编辑器进行训练,得到模糊掩码语言模型,其中,所述三元组掩码为:基于URL初始化子词向量组合形成三元组嵌入向量进而得到平均嵌入向量;对所述模糊掩码语言模型进行微调处理以得到钓鱼URL检测任务模型;将待测URL输入至所述钓鱼URL检测任务模型中,得到检测结果。2.根据权利要求1所述的基于训练语言模型的钓鱼URL检测方法,其特征在于,所述URL语料库的表达式如下:D=unique(D1∪D2∪…∪Dn)其中,D1,D2,D3,D4…Dn表示不同来源的URL数据源。3.根据权利要求1所述的基于训练语言模型的钓鱼URL检测方法,其特征在于,所述基于URL语料库,构建URL分词系统,包括以下步骤:基于URL语料库生成URL分词系统:初始化种子词汇表,将URL语料库中的URL拆分为单个字符,基于BPE算法将所述单个字符进行合并形成字符块,其中,每个字符、特殊符号都作为种子词汇,生成其他的种子词汇;训练URL分词系统以及初始化词嵌入。4.根据权利要求3所述的基于训练语言模型的钓鱼URL检测方法,其特征在于,所述训练URL分词系统以及初始化词嵌入,包括以下步骤:基于URL分词系统,计算种子词汇表中每个子词在URL序列中的概率;假设每个子词被丢弃,则通过最大期望算法获取每个子词被丢弃时产生的损失值;丢弃最大损失值对应的子词,保留剩余损失值对应的子词;重复以上步骤,直至最终字典达到预设大小,或直至连续迭代后子词数不发生变化,得到URL词典和分词器;基于URL词典的索引进行初始化词嵌入,得到URL的初始数字表征。5.根据权利要求1所述的基于训练语言模型的钓鱼URL检测方法,其特征在于,所述构建多层网络编码器,包括以下步骤:所述多层网络编辑器包括12个Transformer编码器,每个Transformer编码器分别包括多头注意力组件和前馈层组件;当所述URL的初始化嵌入表示平均嵌入向量输入至多层网络编辑器,得到位置编码,所述位置编码为包含序列中特定位置信息的d维向量,定义如下:2CN115994224A权利要求书2/3页其中,i表示第i个元素在d维位置编码向量中的值,n=10000,0≤k<d/2,w表示元素在输入中的位置,表示对应的编码,d表示编码维度,f:表示产生输出向量的函数,N为自然数,R为实数;将所述位置编码添加到实际嵌入表示之上,进而为输入子词序列配备相应的位置信息,得到含有位置编码的子词序列;多头注意力组件对含