预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

http://www.paper.edu.cn 1 网络用户行为分析系统研究与设计 张立明 北京邮电大学网络与交换技术国家重点实验室,北京(100876) E-mail:pceoming@gmail.com 摘要:本文在介绍当前对网络用户行为分析存在迫切需求的基础上,首先阐述了网络用户 行为分析技术,然后介绍了网络用户行为分析系统的设计思想与系统框架,并随后介绍了系 统的实现及一些关键技术。本系统在实际运行中具有效率高、兼容性好、用户友好、操作性 强等特点。 关键词:网络用户行为,采集探针,NetFlow,数据采集 1.引言 随着互联网的快速发展与迅速普及,众多企业已经搭建起了自己的网络系统,网络已成 为信息时代企业重要的资源。然而,网络的开放特性也给这些企业带来了不少困扰。先不说 黑客攻击、病毒泛滥的外患,单单是企业员工对网络资源的滥用带来的内忧就让企业的管理 者头疼不已,如工作时间上网、网上游戏、网上聊天等等,这些不仅影响工作效率,而且会 占用企业宝贵的网络资源,影响企业正常的业务运转。在这种情况下,企业迫切的需要对网 络上的用户行为进行监测及分析。 本文阐述的网络用户行为分析系统就是针对这种情况而设计的,系统通过对企业网络流 量的采集、处理、统计等来分析网络上的用户行为,达到更好的管理企业网络,提高员工工 作效率,降低企业安全风险,减少企业损失的目的。 2.网络用户行为分析技术 网络用户行为分析技术主要可以分为数据采集和数据分析两个部分。 2.1数据采集 所谓数据采集就是获取用户访问网络的流量数据,数据采集技术主要可分为三类:基于 SNMP、基于NetFlow以及基于流量全镜像,下面对这三种技术做一下介绍。 基于SNMP:该技术主要是通过读取交换机等网络设备中SNMP代理(Agent)提供的管 理信息库中(MIB)特定对象表示符(OID)的信息,来得到相应的流量数据。该技术的优点 是使用简单,效率较高,设备的支持范围比较广,但是由于它的流量数据是根据链路层的地 址进行聚合的,所以无法得到网络层以上的信息,如IP地址和端口号等。 基于NetFlow:NetFlow是思科(Cisco)公司倡导的一项网络数据流统计技术,该技术通 过分析在网络中传输的数据包的相关属性,可以快速区分网络中传送的各种不同类型业务的 数据流(Flow)。对区分出的每个数据流,Netflow可以进行单独地统计相关的信息,并可将统 计完成后的信息按照一定的格式发送到指定的接收设备。由于整个分析处理主要是由硬件来 完成,所以效率较高,而且还可以获取网络层的信息,但是需要路由器硬件支持NetFlow 技术。目前最新的版本是NetflowV9,主要的实际应用版本则是NetflowV5。 基于流量全镜像:流量全镜象简单来说就是把交换机等网络设备的所有端口(源端口) 的流量完全拷贝一份,复制到另外一个端口(目的端口),这个端口就叫做镜像端口。使用 1本课题得到教育部高等学校博士点专项科研基金(20040013002)的资助。 -1- http://www.paper.edu.cn 这种方法来采集流量数据的方式是通过一个采集探针接在镜像端口上,来捕获网络中传输的 数据包,并进行相应的处理分析。使用该技术的优点是它可以提供丰富的信息,但是它对采 集探针所在的服务器的要求比较高。 2.2数据分析 数据分析实际上是一个从海量数据获得有价值的信息的数据挖掘过程,通过对采集到的 流量数据的过滤、预处理、综合分析处理等程序,从中获取有价值的分析结果,并以准确直 观的方式表示出来。目前来说,TopN分析是网络用户行为分析的一种最常用的方法。因为 对某类用户行为进行分析时,TopN用户最大程度代表并影响了该类用户的特性,而且对 TopN用户采取相应的策略措施也是最有效的方式。因此结合实际需要,本系统通过对应用, 会话,来源,目的等进行TopN分析来达到对用户行为进行分析的目的。 3.系统研究与设计 3.1设计思想 网络用户行为分析系统的设计思想如下: 1)采用NetFlow的原理但不拘泥于NetFlow的限制。即对于支持NetFlow技术的网 络设备,通过对设备进行适当的配置,可以直接把数据流信息发送到采集服务器。对于不支 持NetFlow技术的网络设备,则采用基于流量全镜像的技术,用采集探针连到交换机等网 络设备的镜像端口上来采集网络中的流量数据,并将采集到的流量数据采用NetFlow的方 式进行处理,然后把处理后的数据流信息发送到采集服务器。因而对系统而言,通过网络设 备直接发送过来的数据流信息和通过采集探针发送过来的数据流信息在格式上没有任何差 别,可以统一进行相应的处理,所以系统就有很强的适应性。 2)系统采用分布式、松耦合的集成方式。各个模块间通过消