预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

入侵检测中朴素贝叶斯分类的应用论文摘要贝叶斯分类能高效地处理大型数据本文使用核密度估计的朴素贝叶斯分类来进行入侵检测。由于入侵检测审计数据属性多为连续变量所以在贝叶斯分类算法中使用核密度估计有助于提高分类的精度另引入对称不确定方法有效地删除不相关的检测属性进一步提高分类效率。关键字贝叶斯;核密度;入侵检测;分类1前言在入侵检测系统中为了提高系统的性能包括降低误报率和漏报率缩短反应时间等学者们引入了许多方法如专家系统、神经网络、遗传算法和数据挖掘中的聚类分类等各种算法。例如:Cooper&Herkovits提出的一种基于贪心算法的贝叶斯信念网络而Provan&SinghProvanG.M&SinghM和其他学者报告了这种方法的优点。贝叶斯网络说明联合条件概率分布为机器学习提供一种因果关系的图形能有效的处理某些问题如诊断:贝叶斯网络能正确的处理不确定和有噪声的问题这类问题在任何检测任务中都很重要。然而在分类算法的比较研究发现一种称作朴素贝叶斯分类的简单贝叶斯算法给人印象更为深刻。尽管朴素贝叶斯的分类器有个很简单的假定但从现实数据中的实验反复地表明它可以与决定树和神经网络分类算法相媲美[1]。在本文中我们研究朴素贝叶斯分类算法用来检测入侵审计数据旨在开发一种更有效的检验更加准确的算法。2贝叶斯分类器贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性如给定样本属于一个特定类的概率。朴素贝叶斯分类[2]假定了一个属性值对给定类的影响独立于其它属性的值这一假定称作类条件独立。设定数据样本用一个n维特征向量X={x1x2xn}表示分别描述对n个属性A1A2An样本的n个度量。假定有m个类C1C2Cm。给定一个未知的数据样本X(即没有类标号)朴素贝叶斯分类分类法将预测X属于具有最高后验概率(条件X下)的类当且仅当P(Ci|X)>P(Cj|X)1≤j≤mj≠i这样最大化P(Ci|X)。其中P(Ci|X)最大类Ci称为最大后验假定其原理为贝叶斯定理:公式(1)由于P(X)对于所有类为常数只需要P(X|Ci)P(Ci)最大即可。并据此对P(Ci|X)最大化。否则最大化P(X|Ci)P(Ci)。如果给定具有许多属性的数据集计算P(X|Ci)P(Ci)的开销可能非常大。为降低计算P(X|Ci)的开销可以做类条件独立的朴素假定。给定样本的类标号假定属性值相互条件独立即在属性间不存在依赖关系这样公式(2)概率可以由训练样本估值:(1)如果Ak是分类属性则P(xk|Ci)=sik/si其中sik是Ak上具有值xk的类Ci的训练样本数而si是Ci中的训练样本数。(2)如果Ak是连续值属性则通常假定该属性服从高斯分布。因而公式(3)其中给定类Ci的训练样本属性Ak的值是属性Ak的高斯密度函数而分别为平均值和标准差。朴素贝叶斯分类算法(以下称为NBC)具有最小的出错率。然而实践中并非如此这是由于对其应用假定(如类条件独立性)的不确定性以及缺乏可用的概率数据造成的。主要表现为:①不同的检测属性之间可能存在依赖关系如protocol_typesrc_bytes和dst_bytes三种属性之间总会存在一定的联系;②当连续值属性分布是多态时可能产生很明显的问题。在这种情况下考虑分类问题涉及更加广泛或者我们在做数据分析时应该考虑另一种数据分析。后一种方法我们将在以下章节详细讨论。3朴素贝叶斯的改进:核密度估计核密度估计是一种普便的朴素贝叶斯方法主要解决由每个连续值属性设为高斯分布所产生的问题正如上一节所提到的。在[3]文中作者认为连续属性值更多是以核密度估计而不是高斯估计。朴素贝叶斯核密度估计分类算法(以下称K-NBC)十分类似如NBC除了在计算连续属性的概率时:NBC是使用高斯密度函数来评估该属性而K-NBC正如它的名字所说得一样使用高斯核密度函数来评估属性。它的标准核密度公式为公式(4)其中h=σ称为核密度的带宽K=g(x01)定义为非负函数。这样公式(4)变形为公式(5)公式(5)在K-NBC中采用高斯核密度为数据分析这是因为高斯密度有着更理想的曲线特点。图1说明了实际数据的概率分布更接近高斯核密度曲线。图1两种不同的概率密度对事务中数据的评估其中黑线代表高斯密度虚线为核估计密度并有两个不同值的带宽朴素贝叶斯算法在计算μc和σc时只需要存储观测值xk的和以及他们的平方和这对一个正态分布来说是已经足够了。而核密度在训练过程中需要存储每一个连续属