预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115758204A(43)申请公布日2023.03.07(21)申请号202211361749.XG06F18/25(2023.01)(22)申请日2022.11.02G06N20/20(2019.01)G06N5/01(2023.01)(71)申请人中国电子科技集团公司第十五研究所地址100083北京市海淀区北四环中路211号(72)发明人王祥根崔佳佳沈博王福喜(74)专利代理机构北京艾纬铂知识产权代理有限公司16101专利代理师吴亚兰(51)Int.Cl.G06F18/24(2023.01)H04L9/40(2023.01)G06F18/213(2023.01)G06F18/214(2022.01)权利要求书2页说明书5页附图1页(54)发明名称一种基于多源数据特征工程的用户画像构建方法(57)摘要本发明公开了一种基于多源数据特征工程的用户画像构建方法,属于网络数据分析领域。本方法通过多源数据特征工程对原始数据进行特征构造、特征降维和特征压缩,以减少需要分析的数据量,提高后续工作效率,为网络安全数据分析提供基础,解决了不同数据源样本的内容复杂和属性复杂、特征缺失、冗余问题,最大限度从原始数据中提取特征,实现多个维度的用户画像。CN115758204ACN115758204A权利要求书1/2页1.一种基于多源数据特征工程的用户画像构建方法,包括如下过程:步骤1、特征构造:利用多数据源的特征工程技术将数据集中有用的特征全部挑选出来,组成新的子集;除直接从原始特征中进行选择,还对特征进行变换、组合;步骤2、特征缩放:将特征进行标准化处理,得到落入设定区间的特征;步骤3、特征降维:采用过滤式特征选择方法,排除重要性值较差的若干特征,得到新特征集;步骤4、标签设定:对获得的新特征集进行标签设定,构成样本集;步骤5、模型训练:利用所述样本集进行模型训练,利用训练好的模型,可以实现用户画像构建。2.如权利要求1所述的方法,其特征在于,所述标签设定包括:从用户自身基本属性、从事业务、用户行为角度定义完整的用户画像特征标签,包括行为特征标签和静态特征标签两大类。3.如权利要求2所述的方法,其特征在于,所述行为特征标签和静态特征标签包括:静态特征类标签包括用户特征标签和终端特征标签;用户特征标签包括用户的性别、年龄、所在的部门岗位在内的用户基本信息,终端特征标签描述终端的配置信息;行为特征标签体系包括流量类特征标签、安全威胁类特征标签、用户访问特征标签和文件行为特征标签;在流量类特征标签构建时将流量协议特征作为第一维度,该协议流量出现的相对频率的高低作为二级维度;安全威胁类特征标签,包括病毒特征标签、攻击特征标签及入侵特征标签;用户访问特征标签,基于用户访问数据进行统计学分析,对用户非正常的访问频次、非正常时段访问两个特殊情况进行描述;文件行为特征标签,基于用户文件行为数据进行统计学分析,对用户非正常的文件行为进行描述。4.如权利要求1所述的方法,其特征在于,所述模型训练的具体过程为:(1)加载处理好的样本集,对样本集分隔,要求分隔大小为百分之二十,得到训练样本集;(2)从训练样本集中抽取训练集;(3)基于模型输入数据格式要求,对训练集进行格式转换;(4)将训练集输入模型中,对模型进行训练。5.如权利要求4所述的方法,其特征在于,所述从训练样本集中抽取训练集,每轮从训练样本集中使用Bootstraping方法有放回地抽取n个训练样本,共进行k轮抽取,得到k个训练集。6.如权利要求1或4所述的方法,其特征在于,所述变换、组合具体包含如下四类:(1)数学变换;利用分位数截取、构造信息熵和拉普拉斯变换的方法对网络端口流量,主机CPU使用率,网络负载状况、主机内存使用率进行数学变换;(2)组合统计;对用户的操作时间和用户的操作时长进行组合统计,获得业务处理时长基线;(3)模型探测;将从用户行为日志中提取到的数据特征带入数学函数模型中,获得主机脆弱性、攻击威胁度、漏洞利用三种特征;2CN115758204A权利要求书2/2页(4)特征编码;对于包含有非数值字符串的连续型特征变量,采用编码的方式转换为连续数字表示;对于包含有非数值字符串的离散型特征,采用独热编码的方式进行特征编码,将离散特征的取值扩展到欧式空间,令数据变为稀疏矩阵的形式。7.如权利要求1所述的方法,其特征在于,所述多数据源包括:网络访问、数据传输和终端操作上述用户行为数据以及正则化的第三方安全态势数据。3CN115758204A说明书1/5页一种基于多源数据特征工程的用户画像构建方法技术领域[0001]本发明涉及一种基于多源数据特征工程的用户画像构建方法,属于网络数据分析领域。背景技术[0002]用户画像是对用户进行理解,