预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

·· 通信学报 第29卷 第12期 刘兴彬等:基于Apriori算法的流量识别特征自动提取方法 ·· 第29卷第12期 通信学报 Vol.29No.12 2008年12月 JournalonCommunications December2008 基于Apriori算法的流量识别特征自动提取方法 刘兴彬1,2,杨建华1,谢高岗1,胡玥1,2 (1.中国科学院计算技术研究所下一代互联网研究中心,北京100190;2.北京科技大学信息工程学院,北京100083) 摘要:提出了一种基于Apriori算法自动提取协议识别特征的方法,该方法可以自动提取2种最常用的协议识别特征——特征字符串和包长特征,提取特征的效率较传统方法有很大的提高。通过识别率、准确率、正误识别率和负误识别率等指标验证了所提取特征的准确性和完整性,并根据结果反馈指导特征提取的过程,保证了提取特征的可靠性。 关键词:流量识别;自动提取协议识别特征;Apriori算法;深度包探测 中图分类号:TP393.08文献标识码:A文章编号:1000-436X(2008)12-0051-09 Automatedminingofpacketsignaturesfortrafficidentificationatapplicationlayerwithapriorialgorithm LIUXing-bin1,2,YANGJian-hua1,XIEGao-gang1,HUYue1,2 (1.ResearchCentreofNextInternetInstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China;2.SchoolofInformationEngineering,BeijingUniversityofScienceandTechnology,Beijing100083,China) Abstract:Automaticandaccurateextractionpacketsignaturesarethefoundationoftheprecisetrafficidentificationatapplicationlevel.Amethodwhichcanautomaticallyextractthepacketsignaturesofcharacteristicstringandpacketlengthfortrafficidentificationatapplicationlayerwasproposed.Theidentificationrate,accuracyrate,positiveidentificationerrorrateandnegativeidentificationerrorratehavebeenverifiedwithexperimentonsometracestovalidtheminedsignatures. Keywords:trafficidentification;automaticallyextractedsignaturesofprotocols;Apriorialgorithm;deeppacketinspecting 1引言 收稿日期:2008-08-20;修回日期:2008-11-18 基金项目:国家重点基础研究发展计划(“973”计划)基金资助项目(2007CB310702);国家自然科学基金资助项目(90604015);中国科学院重大科研装备研制项目(YZ200824) FoundationItems:TheNationalBasicResearchProgramofChina(973Program)(2007CB310702);TheNationalNaturalScienceFoundationofChina(90604015);TheMajorResearchProjecttoDevelopEquipmentofChinaAcademyofSciences(YZ200824) 网络应用层流量识别对网络规划、网络管理、流量工程、安全检测等至关重要。传统的应用层协议流量识别方法主要基于IANA(Internetassignednumbersauthority)定义的协议端口实现。然而,目前许多新的应用层协议为了逃避防火墙的过滤、避开主机的限制以及出于本身安全因素等原因[1],逐渐开始采用动态端口号,甚至加密方式进行通信。SubhabrataSen等分析发现KazaaP2P协议进行通信的流量中,仅30%的Kazaa流量是通过传输层的缺省端口号传输的,这表明仅使用固定端口号进行流量识别是很不准确的[2]。为解决此问题,研究者们提出了