基于数据挖掘算法的网络入侵检测

时间:2022-09-21 09:30:06

基于数据挖掘算法的网络入侵检测

【摘 要】如何对入侵检测的现状进行了分析,在此基础上重点研究了数据挖掘算法在异常检测和误用检测中的具体应用。对于异常检测,主要研究分类算法、模式比较和聚类算法、目前数据挖掘算法在入侵检测中应用所面临的难点进行了分析,并指明了今后的研究方向。

【关键词】入侵检测 数据挖掘 异常检测 误用检测 分类算法

用于加强网络安全的手段目前有很多,如加密,vpn ,防火墙等,但这些技术都是静态的,不能够很好的实施有效的防护。而入侵检测(intrusion detection)技术是一种动态的防护策略,它能够对网络安全实施监控、攻击与反攻击等动态保护,在一定程度上弥补了传统静态策略的不足。

一、入侵检测中数据挖掘技术的引入

(一)入侵检测技术介绍

入侵检测技术是对(网络)系统的运行状态进行监视,发现各种攻击企图、攻击行为或者攻击结果,以保证系统资源的机密性、完整性与可用性。

根据数据分析方法(也就是检测方法)的不同,我们可以将入侵检测系统分为两类:

1.误用检测(misuse detection)。又称为基于特征的检测,它是根据已知的攻击行为建立一个特征库,然后去匹配已发生的动作,如果一致则表明它是一个入侵行为。

2.异常检测(anomaly detection)。又称为基于行为的检测,它是建立一个正常的特征库,根据使用者的行为或资源使用状况来判断是否入侵。

将这两种分析方法结合起来,可以获得更好的性能。异常检测可以使系统检测新的、未知的攻击或其他情况;误用检测通过防止耐心的攻击者逐步改变行为模式使得异常检测器将攻击行为认为是合法的,从而保护异常检测的完整性。

(二)数据挖掘技术

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类:

1.关联分析。关联分析能寻找数据库中大量数据的相关联系,常用的2种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

2.聚类。输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。

3.自动预测趋势和行为。数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势。

4.概念描述。对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。

5.偏差检测。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。

二、算法在入侵检测中的具体使用

(一)基于误用的检测模型

·id3、c4.5算法:id3算法是一种基本的决策树生成算法,该算法不包括规则剪除部分。c4.5算法作为id3算法的后继版本,就加入了规则剪除部分,使用训练样本来估计每个规则的准确率。也是分类模型的主要运用算法。

对于已知的攻击类型的检测,分类模型具有较高的检准率,但是对于未知的、新的攻击,分类模型效果就不是很理想。这个是由误用检测本身的特点所决定的,误用检测误报率低,但是它在对已知攻击模式特征属性构建和选取上往往要花费大量的精力,这也是分类检测的难点所在。所以这种检测模型只能有限的检测已知的攻击,而要更好的检测未知的攻击,就要使用到异常检测技术,但是,异常检测却比误用检测负责的多,因为对于系统正常使用模式的构建本身就是一件非常复杂的事情。

(二)基于异常的入侵模型

异常检测的主要工作就是通过构造正常活动集合,然后利用得到的一组观察数值的偏离程度来判断用户行为的变化,以此来觉得是否属于入侵的一种检测技术。异常检测的优点在于它具有检测未知攻击模式的能力,不论攻击者采用什么样的攻击策略,异常检测模型依然可以通过检测它与已知模式集合之间的差异来判断用户的行为是否异常。

在异常检测中主要用到的两个算法就是模式比较和聚类算法:

1.模式比较。在模式比较算法

首先通过关联规则和序列规则建立正常的行为模式,然后通过模式比较算法来区别正常行为和入侵行为。

(1)关联规则。它主要经过两步过程:首先识别所有支持度不低于用户规定的最小支持度域值的项目集,即频繁项目集;然后从得到的频繁项目集中构造出可信度不低于用户规定的最小可信度域值的规则。现在已有多种关联规则算法如apriori算法等用于入侵检测。

(2)序列分析。序列模式挖掘有几个重要的参数,如时间序列的持续时间,事件重叠窗口和被发现的模式中时间之间的时间间隔。还可以在要挖掘的序列模式上指定约束,方法是提供“模式模板“,其形式可以是系列片段(serial episode),并行片段(parallel episode),或正则表达式。序列分析使用于发现分布式攻击和插入噪声的攻击。由于各种攻击方法的规模的扩大和时间持久,序列分析变得越来越重要。

2.聚类算法。基于聚类的入侵检测是一种无监督的异常检测算法,通过对未标识数据进行训练来检测入侵。该方法不需要手工或其他的分类,也不需要进行训练。因此呢功能发现新型的和未知的入侵类型。

三、结论

入侵检测中数据挖掘技术方面的研究已经有很多,发表的论文也已经有好多,但是应用难点在于如何根据具体应用的要求,从用于安全的先验知识出发,提取出可以有效反映系统特性的属性,并应用合适的算法进行数据挖掘。另一技术难点在于如何将数据挖掘结果自动应用到实际ids中。

入侵检测采用的技术有多种类型,其中基于数据挖掘技术的入侵检测技术成为当前入侵检测技术发展的一个热点,但数据挖掘还处于发展时期,因此有必要对它进行更深入的研究。

参考文献:

[1]张银奎,廖丽,宋俊等.数据挖掘原理[m].北京:机械工业出版社,2003 : 93-105

[2]戴英侠,连一峰,王航等.系统安全与入侵检测[m].北京:清华大学出版社,2002 : 99-137

[3]许卓群.数据结构[m].北京:中国广播电视大学出版社,2001 : 260- 272

上一篇:基于DS12CR887的多功能电子时钟设计 下一篇:论构建绿色交通,实现城市交通可持续发展