预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114117175A(43)申请公布日2022.03.01(21)申请号202111195721.9G06N3/04(2006.01)(22)申请日2021.10.14G06N3/08(2006.01)(71)申请人北京墨云科技有限公司地址100085北京市海淀区上地信息路12号1幢4层C401(72)发明人谢鑫任玉坤何召阳何晓刚周欢朱伟光(74)专利代理机构北京巨弘知识产权代理事务所(普通合伙)11673代理人赵洋(51)Int.Cl.G06F16/951(2019.01)G06F16/958(2019.01)G06F16/33(2019.01)G06F40/242(2020.01)权利要求书1页说明书3页附图2页(54)发明名称一种基于深度学习的社工评估数据生成方法(57)摘要本发明公开了一种基于深度学习的社工评估数据生成方法,包括以下步骤:S1、页面数据获取:通过爬虫技术和人工手动模式收集钓鱼邮件数据;S2、页面特征工程:对钓鱼邮件数据进行清洗脏数据、补全缺失值、降维,去除低频词汇及停用词后生成统一格式的整理数据;S3、词向量模型生成:使用神经网络对整理数据进行自然语言处理,将整理数据进行编号生成词向量,通过对词向量进行训练拟合成词向量模型;S4、目标序列获取:通过Seq2Seq模型对词向量模型进行训练,得到长度变化的目标序列;S5、数据生成:根据目标序列结合用户行为习惯生成社工评估数据。本发明能够提高识别钓鱼邮件的能力,用于提高人们的信息安全意识水平。CN114117175ACN114117175A权利要求书1/1页1.一种基于深度学习的社工评估数据生成方法,其特征在于:包括以下步骤:S1、页面数据获取:通过爬虫技术和人工手动模式收集钓鱼邮件数据;S2、页面特征工程:对所述钓鱼邮件数据进行清洗脏数据、补全缺失值、降维,去除低频词汇及停用词后生成统一格式的整理数据;S3、词向量模型生成:使用神经网络对所述整理数据进行自然语言处理,将所述整理数据进行编号生成词向量,通过对所述词向量进行训练拟合成词向量模型;S4、目标序列获取:通过Seq2Seq模型对所述词向量模型进行训练,得到长度变化的目标序列;S5、数据生成:根据所述目标序列结合用户行为习惯生成社工评估数据。2.根据权利要求1所述的一种基于深度学习的社工评估数据生成方法,其特征在于:步骤S3进一步包括以下步骤:S31、根据所述整理数据创建词库表;S32、对所述词库表中的词进行编号生成词向量;S33、通过对所述词库表中所述词向量进行训练,聚集语义功能相近的字并缩短近义词之间的向量空间距离,拟合成所述词向量模型。3.根据权利要求1所述的一种基于深度学习的社工评估数据生成方法,其特征在于:步骤S4进一步包括以下步骤:S41、对所述词向量模型进行分析处理,建立词典;S42、将所述词典输入所述Seq2Seq模型进行训练,得到长度变化的所述目标序列。4.根据权利要求1所述的一种基于深度学习的社工评估数据生成方法,其特征在于:步骤S42进一步包括以下步骤:S421、编码器通过不断将上一个时刻的输出作为当前时刻的输入,共享神经网络单元和参数,将长度变化的输入序列表示成固定维度的向量;S422、解码器将所述编码器的中间结果作为输入,通过解码器单元的计算不断输出解码结果,直至遇到终止符为止,得到长度变化的所述目标序列。5.根据权利要求1所述的一种基于深度学习的社工评估数据生成方法,其特征在于:所述Seq2Seq模型包括编码器和解码器。6.根据权利要求5所述的一种基于深度学习的社工评估数据生成方法,其特征在于:所述解码器为RNN。2CN114117175A说明书1/3页一种基于深度学习的社工评估数据生成方法技术领域[0001]本发明涉及网络数据安全技术领域,具体涉及一种深度学习的社工评估数据生成方法。背景技术[0002]大数据时代,网络安全仍是举足轻重的话题。在海量信息中,不乏非法分子利用网络骗取用户信任并从中获利,钓鱼网站就是其中之一。“钓鱼”网站的网址、网页内容、布局等与真实网站极其相似,没有安全意识的网民容易因此上当受骗,造成严重后果。为了增加人们的信息安全意识,提高识别钓鱼邮件的能力,针对性研究钓鱼数据生成技术,用于提高人们的信息安全意识水平。[0003]申请号为20111002089.6公开了一种基于文本特征分析的钓鱼邮件检测方法,去掉邮件中的非文本内容;利用了邮件解析器对邮件进行解析;利用了正则表达式算法提取了邮件中的网站链接;再次利用正则标定算法提取了链接中的相关特征;利用域名注册检索引擎,得到了网站注册时间特征。运用这些所提取的文本特征,组成邮件的特征向量。通过实验,证明能够提高钓鱼邮件的精度和召回