预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN106572108A(43)申请公布日2017.04.19(21)申请号201610981248.X(22)申请日2016.11.08(71)申请人杜少波地址455000河南省安阳市龙安区马投涧镇陈贺驼村岗西中街5号(72)发明人杜少波何文华杨露穆肈南何旭贾若李静袁华卜艳桃(74)专利代理机构贵阳春秋知识产权代理事务所(普通合伙)52109代理人李剑(51)Int.Cl.H04L29/06(2006.01)G06K9/62(2006.01)权利要求书1页说明书6页(54)发明名称一种基于邻域距离的入侵特征选择方法(57)摘要本发明公开了一种基于邻域距离的入侵特征选择方法。包括以下步骤:对待聚类数据集采用聚类算法进行聚类,从而获得数据集的类别标签;然后根据类别标签集构成的簇的邻域距离来确定数据集中属性的重要度;最后利用启发搜索来进行特征选择。本发明能够有效地精简入侵数据中的数据特征,提高分类算法的检测效率和检测速度。CN106572108ACN106572108A权利要求书1/1页1.一种基于邻域距离的入侵特征选择方法,其特征在于:包括以下步骤:对待聚类数据集采用聚类算法进行聚类,从而获得数据集的类别标签;然后根据类别标签集构成的簇的邻域距离来确定数据集中属性的重要度;最后利用启发搜索来进行特征选择。2.根据权利要求1所述的基于邻域距离的入侵特征选择方法,其特征在于:所述的聚类算法为K-modes聚类算法。3.根据权利要求1所述的基于邻域距离的入侵特征选择方法,其特征在于:所述属性的重要度的计算公式为:其中,sig(r)表示属性的重要度,k表示聚类后类别标签集中的分类个数,Dy(Xi,Xj)表示Xi和Xj的领域,i>0,j>0。4.根据权利要求1所述的基于邻域距离的入侵特征选择方法,其特征在于:所述的邻域距离的计算公式为:其中,DP(X,Y)表示数据集X和数据集Y属性集上的广义距离,R表示属性的非空有限集合,P为非空有限集合R的子集。2CN106572108A说明书1/6页一种基于邻域距离的入侵特征选择方法技术领域[0001]本发明涉及一种入侵特征选择方法,特别是一种基于邻域距离的入侵特征选择方法。背景技术[0002]入侵检测技术是网络安全的一个重要研究方向,它实质上可以归结为安全审计数据的处理。这种处理可以针对网络数据、主机的审记记录或应用程序的日志文件等,目前常用统计技术、分类技术、数据挖掘技术来实现异常行为检测。[0003]在入侵检测中,探测器收集到的数据量庞大且提取出来的特征繁多,其中有些特征与检测无关,这些特征一方面降低了分类或聚类的精度,另一方面大大增加了学习及训练的时间和空间复杂度,影响算法运行效率。研究发现,特征选择(FeatureSelection,FS)可以在保持原有网络数据信息完整性的基础上去除其中的冗余特征,达到提高系统检测速度的目的。从现有的特征选择算法来看,吴庆涛等提出了一种基于粒子群优化的入侵特征选择算法,该算法通过分析网络入侵数据特征之间的相关性,利用粒子群优化算法在所有特征空间中优化搜索,自主选择有效特征子集,降低数据维度。刘明珍提出了一种二值粒子群优化算法和支持向量机相结合的方法,该算法利用二值粒子群优化算法在特征空间中进行全局搜索,选择最优特征集进行分类。张宗飞提出一种基于量子进化算法的网络入侵检测特征选择算法,该算法将量子进化算法应用于网络入侵检测的特征选择;林冬茂等提出了一种基于无监督免疫优化分层的网络入侵检测算法,该算法将免疫网络与分层聚类方法相结合,达到检测网络入侵的目的。这些特征选择方法都是基于人工智能算法,由于人工智能算法需要一些参数设置,因此参数设置是否合理将直接影响检测算法的性能。发明内容[0004]本发明的目的在于,提供一种基于邻域距离的入侵特征选择方法。它能够有效地精简入侵数据中的数据特征,提高分类算法的检测效率和检测速度。[0005]本发明的技术方案:一种基于邻域距离的入侵特征选择方法,包括以下步骤:对待聚类数据集采用聚类算法进行聚类,从而获得数据集的类别标签;然后根据类别标签集构成的簇的邻域距离来确定数据集中属性的重要度;最后利用启发搜索来进行特征选择。[0006]前述的基于邻域距离的入侵特征选择方法中,所述的聚类算法为K-modes聚类算法。[0007]前述的基于邻域距离的入侵特征选择方法中,所述属性的重要度的计算公式为:[0008][0009]其中,sig(r)表示属性的重要度,k表示聚类后类别标签集中的分类个数,Dy(Xi,Xj)表示Xi和Xj的领域,i>0,j>0。[0010]前述的基于邻域距离的入侵特征选择方法中,所述的邻域距离的计算公式为:3CN106572108A说明书2/6页