预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第12卷第4期湖南商学院学报(双月刊)Vo1112No14 2005年8月JOURNALOFHUNANBUSINESSCOLLEGEAug12005 数据挖掘技术在安全审计中的应用 石彪1胡华平2刘利枚2 (11湖南商学院计算机与电子工程系,长沙410205; 21国防科技大学计算机学院,长沙410073) 〔摘要〕本文主要讨论如何通过具有学习能力的数据挖掘技术,来实现网络日志的综合分析与智能安全审计。在介绍数据挖掘技术 和常用安全审计方法的基础上,给出了一种基于数据挖掘技术实现的安全审计引擎框架。 〔关键词〕数据挖掘;安全审计;网络日志;KDDWeka 〔中图分类号〕F239.1〔文献标识码〕A〔文章编号〕10082107(2005)04008403 选择适当的和典型的数据,缩小处理范围。 一、数据挖掘概述 随着数据库技术的迅速发展以及数据库管理系统的广泛 应用,人们积累的数据越来越多。激增的数据背后隐藏着许 多重要的信息,人们希望能够对其进行更高层次的分析,以 便更好地利用这些数据。目前的数据库系统可以高效地实现 图1KDD过程示意图 数据的录入、查询、统计等功能,但无法发现数据中存在的 31对数据进行预处理:通过汇总或聚集操作将数据变 关系和规则,无法根据现有的数据预测未来的发展趋势。缺 换统一成适合挖掘的形式。 乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知 41进行数据挖掘,发现模式并表达成易于理解的规则 识贫乏”的现象。同时,计算机技术的另一领域———人工智 或树的形式:模式是数据的一个子集的抽象表示,它可以以 能自1956年诞生之后取得了重大进展。经历了博弈时期、 人工的方式或自动的方式建立。 自然语言理解、知识工程等阶段,目前的研究热点是机器学 51评价和解释发现的模式:根据设定目标(通常为兴 习。机器学习是用计算机模拟人类学习的一门科学,比较成 趣度度量),利用专业知识,对数据挖掘结果进行评估和解 熟的算法有神经网络、遗传算法等。 释,去除多余的或不重要的模式,将结果提交给用户。 用数据库管理系统来存储数据,用机器学习的方法来分 KDD表示了从低层数据抽象到高级知识的过程。KDD 析数据,挖掘大量数据背后的知识,这两者的结合促成了数 过程必然是重复的,数据挖掘的结果可能会要求在数据准备 据库中的知识发现(KDD:KnowledgeDiscoveryinDatabas2 阶段作某些必要的变化,模式的后处理也可能导致用户对模 es)的产生。数据挖掘是KDD最核心的部分,是采用机器 式类型作适当的修改等等。 学习、统计等方法进行知识学习的阶段。预测和描述是数据 挖掘的主要任务。预测是指用一些变量或数据库中的若干字二、常用安全审计方法 段预测其他感兴趣的变量或字段的值;描述是指挖掘出数据 库的一般特性。许多人将数据挖掘看成是数据库中的知识发利用日志进行安全审计分析的思想,最早是1980年An2 现(KnowledgeDiscoveryinDatabaseKDD)的一部分,这是derson的论文中正式提出的,至今经历了20余年的研究和 狭义上的数据挖掘;从广义的观点来看,数据挖掘系统代表发展,己形成了较为完备的理论和应用体系。当前常用的安 了KDD的整个过程。KDD的目标是从大型数据集中获取有全审计方法主要有:基于规则库的安全审计方法、基于数理 用知识,它是一个交互式的半自动分析工具,系统的用户应统计的安全审计方法和基于数据挖掘的安全审计方法。 当对有关领域具备良好的理解力。KDD过程如图1所示。11基于规则库的安全审计。基于规则库的安全审计方 11确定发现任务的应用领域、背景知识和性质。法是将已知的攻击行为进行特征提取,把这些特征用脚本语 21准备相关的数据子集:将分布在各处以各种形式存言等方法进行描述后放入规则库中,当进行安全审计时,将 放的数据,按照KDD的需求收集过来,并根据分析需求, 〔收稿日期〕20050420 〔作者简介〕石彪(1976-),男,湖南花垣人,湖南商学院计算机与电子工程系教师,硕士;胡华平(1967-),男,江西临川人, 国防科技大学计算机学院教授,博士后。 ©1995-2005TsinghuaTongfangOpticalDiscCo.,Ltd.Allrightsreserved. 58 收集到的审核数据与这些规则进行某种比较和匹配操作(关文采用了具有学习能力的数据挖掘技术来构建数据分析与安 键字、正则表达式、模糊近似度等),从而发现可能的网络全审计引擎。其主要思路是首先收集足够多的“正常”或 攻击行为。这种方法和某些防火墙和防病毒软件的技术思路者“非正常”的历史日志数据,然后用一个分类算法去产 类似,检测的准确率都相当高。基于规则库的安全审计方法生一个“判