预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115878927A(43)申请公布日2023.03.31(21)申请号202211236015.9(22)申请日2022.10.10(71)申请人尚伯乐地址150000黑龙江省哈尔滨市南岗区学府三道街34号3单元503室(72)发明人尚伯乐(51)Int.Cl.G06F16/958(2019.01)G06F16/955(2019.01)G06F16/35(2019.01)G06F40/279(2020.01)G06F18/214(2023.01)G06F18/2411(2023.01)G06N20/00(2019.01)权利要求书2页说明书12页附图2页(54)发明名称一种诈骗网站的识别方法、装置、存储介质和电子设备(57)摘要本发明公开了一种诈骗网站的识别方法、装置、存储介质和电子设备,方法包括:首先获取诈骗网站的文本特征数据集和网络特征数据集,构建网站识别训练模型,基于文本特征数据集或网络特征数据集,利用预设训练方法对网站识别训练模型进行训练,得到训练好的单分类网站识别模型,将待识别的网站信息输入训练好的单分类网站识别模型,得到待识别的网站信息的识别结果,它通过构建单分类模型,能够进行诈骗网站的自动识别,提高诈骗网站识别的准确率,降低误判率。CN115878927ACN115878927A权利要求书1/2页1.一种诈骗网站的识别方法,其特征在于,所述方法包括:获取诈骗网站的文本特征数据集和网络特征数据集;构建网站识别训练模型;基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,其中,所述预设训练方法包括机器学习的SVM方法或深度学习的CVDD方法;将待识别的网站信息输入所述训练好的单分类网站识别模型,得到所述待识别的网站信息的识别结果。2.根据权利要求1所述的方法,其特征在于,所述获取诈骗网站的文本特征数据集和网络特征数据集,包括:提取所述诈骗网站上的文本内容,并利用预设方法对所述诈骗网站上的文本内容进行分词处理,得到至少一个词表;根据所述词表,生成所述诈骗网站的文本特征数据集。3.根据权利要求2所述的方法,其特征在于,所述预设方法包括BagofWord、Bi‑Gram、TF‑IDF以及分标签TF‑IDF特征向量表示方法。4.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,包括:当所述预设训练方法为基于机器学习的SVM方法,构造超平面分类函数,并输入至所述网站识别训练模型;根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第一优化目标;根据所述文本特征数据或网络特征数据的第一优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。5.根据权利要求4所述的方法,其特征在于,所述超平面分类函数通过以下算式确定:其中sgn为符号函数,w为权重,T为矩阵转置符,φ为映射函数,x为数据项,ρ为超平面偏置项,α为权重,K(x)为核函数。6.根据权利要求5所述的方法,其特征在于,所述第一优化目标通过以下算式确定:其中,ω为权重,n为数据项个数,为ζi为松弛因子,v为惩罚因子,ρ为超平面偏置项,w为2CN115878927A权利要求书2/2页权重,φ为映射函数,x为数据项。7.根据权利要求1所述的方法,其特征在于,所述基于所述文本特征数据集或网络特征数据集,利用预设训练方法对所述网站识别训练模型进行训练,得到训练好的单分类网站识别模型,还包括:当所述预设训练方法为基于深度学习的CVDD方法,构造打分函数,并输入至所述网站识别训练模型;根据训练模型的输出结果,获取基于所述文本特征数据或网络特征数据的第二优化目标;根据所述文本特征数据或网络特征数据的第二优化目标,优化所述训练模型的参数,直至得到训练好的单分类网站识别模型。8.根据权利要求7所述的方法,其特征在于,所述打分函数通过以下算式确定:其中,s为由l个词组成的句子,满足s=(w1,w2,w3,...,wl)且每一项wk是一个d维词向量,M=HA,H=(h1,h2,h3,...,hl)且每一项hk是一个p维向量,A=(a1,a2,a3,...,ar)且每一项ak是一个l维向量,即为注意力头,ck为ContextVector,满足C=(c1,c2,c3,...,cr)且C与M相同。9.根据权利要求7所述的方法,其特征在于,所述第二优化目标通过以下算式确定:其中,外层求和符号代表数据集中有n个句子,内层求和符号代表考虑了r个(i)注意力头。第二优化目标中第一项σk(H))代表一个权重,即对每个注意力头分配的权重,(i)其