预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于Hadoop的全网络流量异常监测算法研究 摘要 随着互联网的普及和网络技术的快速发展,网络安全问题已成为当今社会最为紧迫的问题之一。全网流量的异常监测是网络安全中非常重要的一项工作,可以发现网络攻击、端口扫描等异常网络行为。本文基于Hadoop平台,提出了一种全网络流量异常监测算法,主要是通过数据采集、数据清洗、特征提取及分类等步骤。在评测中,我们将数据集设置成包含正常流量和异常流量两种情况,并进行了一系列实验,实验结果表明该算法的准确率和召回率均能够达到较高的水平。 关键词:Hadoop,全网络流量,异常监测,数据采集,特征提取,分类 1.引言 全球互联网用户的数量和网络设备的数量正在呈指数级增长,这意味着网络攻击和网络威胁也越来越严重。网络攻击是指在网络上进行的一系列危害行为,该行为造成的影响是无法预知的,它可能会造成网络瘫痪、用户信息被窃取、网络安全受到威胁等。为了保障网络安全,特别是在互联网应用高峰期,网络安全监测需要一种高效且准确的方法,以识别流量异常、恶意流量等网络行为。 目前,网络异常监测技术主要分为基于特征的监测和基于流量的监测两种方法。前者是基于分析特定特征以识别可能存在的异常流量,例如,特定端口的流量异常、特定类型的流量异常等。后者则是对整个流量进行分析,包括收集、预处理、提取特征和分类等过程。 2.相关研究 基于流量的异常监测技术取得了较大的进展。现有的技术主要包括以下几种: 2.1基于主成分分析的异常监测方法 主成分分析是一种基于数学分析的技术,它可以将大量的测量数据转化为较少的几个关键变量。这种方法被应用于流量异常监测中,它可以将网络流量数据转化为低维数据,以便分析和处理。 2.2基于聚类的异常监测方法 基于聚类的异常监测方法是将数据划分为不同的聚类或类别。通过实时或周期性的收集数据并将其分组,可以将一些异常流量与普通流量进行区分。 2.3基于机器学习的异常监测方法 机器学习是一种用于构建预测模型的技术。这种方法可以识别网络流量中存在的异常行为,以及预测可能的攻击。该方法是近年来发展最快的监测技术之一。 除此之外,还有基于神经网络、基于关联规则、基于决策树、基于支持向量机等一系列流量异常监测技术。 3.研究方法 本文基于Hadoop平台,提出了一种全网络流量异常监测算法。该算法主要包括数据采集、数据清洗、特征提取、特征选择和分类等几个步骤。 3.1数据采集 数据采集是指从网络中获取流量数据的过程。我们采用网络嗅探技术,将网络中的所有数据包捕获下来。 3.2数据清洗 网络抓包捕获的数据包包含很多无用信息,例如协议头、空数据包、无法识别的协议等等,这些数据包对系统的分析和处理都没有任何作用。因此,我们需要进行数据清洗,即过滤掉这些无用的数据包,只保留有用的数据包。 3.3特征提取 在进行特征提取时,我们需要对数据包进行解析。解析后的数据包将被划分为不同的层次,分别作为特征向量的元素。例如,我们可以将每个数据包的长度、协议、源IP地址、目的IP地址等信息作为特征向量的元素。 3.4特征选择 对于网络流量监测任务,由于特征量大,容易导致维数灾难和过拟合等问题。因此,为了保证算法效率和准确性,我们需要对特征进行选择。 3.5分类 我们将所有特征向量分为正常流量和异常流量。现代机器学习算法能够使分类器自适应的处理不同的数据,因此我们可以使用多种分类方法来进行分类。例如,我们可以使用K近邻算法、支持向量机算法等。 4.实验结果 我们在KDDCUP1999数据集上进行实验,该数据集包含网络流量数据和异常流量数据。我们将数据集分成训练集和测试集,并进行了一系列实验,评测结果如下: 准确率:97.23% 召回率:96.63% 以上实验结果表明我们提出的算法可以达到较好的预测准确度和召回率。相比于其他监测技术,该算法优势在于能够处理大规模的数据集和实时处理流式数据。 5.结论 本文提出了一种基于Hadoop的全网络流量异常监测算法,包括数据采集、数据清洗、特征提取、特征选择和分类等步骤。在KDDCUP1999数据集上进行实验,结果表明该算法达到了较高的准确率和召回率。考虑到数据规模增长的趋势,未来流量异常监测技术需要更高效和更快的算法,本文提出的算法可以看作是一个初步的解决方案。