预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于Hadoop的BT业务流量精细识别及分析的任务书 任务书: 一、任务背景与意义 随着互联网的发展,人们的生活越来越离不开它。互联网的一个重要应用场景是P2P文件共享,其中最典型的就是BT下载。BT下载是一种点对点的文件共享方式,用户通过BT客户端软件将自己拥有的文件分享出去,其他用户可以下载这些文件。但是,大量的BT下载会给网络带来很大的负担,对网络带宽和稳定性产生很大的挑战。因此,对BT业务的流量进行精细识别与分析显得十分重要。 此次任务的目的是在Hadoop框架下,基于抓包的方式,分析BT业务的流量特征,构建BT流量识别系统,实现对BT业务流量的精细识别、分析和优化,为网络管理者提供有效的决策依据。 二、任务目标 本项目的主要目标为实现基于Hadoop的BT业务流量精细识别及分析系统。具体实现任务包括: 1.利用JAVA编写程序基于Hadoop实现的大数据分析功能; 2.通过对BT业务流量特征的抓包分析,提取BT业务流量的特征,将其存入Hadoop的分布式文件系统HDFS中; 3.借助数据挖掘算法,从HDFS中提取流量特征,进行识别,并与网络状况进行关联分析; 4.构建BT流量识别模型,并通过Hadoop平台对识别任务进行分布式计算; 5.挖掘BT业务流量中的深层数据、模式和规律,寻找优化网络流量的方法,为网络管理者提供有效的决策依据,提高网络服务质量。 三、总体策略与技术路线 1.确定技术语言和工具:本项目中所采用的技术语言为Java,技术工具是Hadoop平台及流量捕获工具tcpdump。 2.流量抓包:通过tcpdump工具对目标主机进行流量抓包,将抓到的数据存储到本地文件中。 3.文件上传:利用Java编写的程序将本地文件上传到分布式文件系统HDFS中。 4.数据提取:通过Hadoop平台基于Java的MapReduce编程模型,对HDFS中的数据进行处理分析,提取BT业务流量的特征。 5.流量特征识别:借助数据挖掘算法对流量特征进行识别,并与网络状况进行关联分析,确定BT流量识别模型。 6.分布式计算:通过Hadoop平台对BT流量识别计算任务进行分布式计算,提高处理效率。 7.优化网络流量:对BT业务流量中的深层数据、模式和规律进行深入挖掘,寻找优化网络流量的方法,为网络管理者提供有效的决策依据,提高网络服务质量。 四、工作计划及分工 1.第一周:研究Hadoop平台的整体架构和基本原理,学习MapReduce编程模型,掌握HDFS的结构与使用。 2.第二周:研究tcpdump流量抓包工具的使用方法,用Java编写程序实现对流量数据的抓取及处理。 3.第三周:基于Hadoop平台实现流量特征提取,掌握数据挖掘算法并进行流量特征识别。 4.第四至第五周:基于MapReduce编程模型,实现在Hadoop平台下的分布式计算任务。 5.第六周:对BT业务流量中的深层数据、模式和规律进行深入挖掘,为网络管理者提供优化策略和建议。 6.第七至第八周:进行系统测试与性能优化,修改程序中的bug,并进行性能测试,最终得出完整的BT业务流量识别及分析系统。 备注:各实验室及成员的具体工作量由项目组讨论决定。