基于聚类的分类分析自适应入侵检测模型

时间:2022-08-04 01:21:46

基于聚类的分类分析自适应入侵检测模型

摘要:基于数据挖掘的入侵检测系统由于引入了数据挖掘技术,很好的解决了传统入侵检测系统中自适应性和扩展性的问题。在数据挖掘中,聚类分析和分类分析是重要的技术,该文将这两种技术引入入侵检测模型,提出了一种基于聚类的分类分析自适应入侵检测模型。

关键词:数据挖掘;入侵检测;分类;聚类

中图分类号:TP311文献标识码:A文章编号:1009-3044(2009)25-7101-02

Adaptive Model of IDS with Classification Based on Clustering

LIAO Ming-xing

(Hubei University, Wuhan 430062, China)

Abstract: Intrusion detection system based on data mining solves the problems about adaptability and extensibility in traditional intrusion detection system because of the data mining technology. Clustering and classification are important technologies in data mining. This paper introduces them in IDS and presents an adaptive model of IDS with classification based on clustering.

Key words: data mining; intrusion detection; classification; clustering

随着计算机网络技术与网络规模的高速发展,网络应用在人们的工作学习中显得越来越重要,而与此同时,网络遭受入侵和破坏的频率也日益增大。为了保护网络上信息的完整和安全,我们必须建立健壮安全的网络体系,这也是我们必须关注的一个问题。传统上,网络用户使用防火墙作为第一道防线来保护计算机网络的安全,但是由于攻击手段的多变复杂,加上防火墙的缺陷和处于网络的明处,防火墙很难抵挡各式各样的攻击入侵,不能满足一些对网络安全有着高要求的需求。这种情况下,入侵检测系统就成为了安全市场上的热点,它作为继防火墙之后的第二道安全措施,监控系统与网络的状态,承担起发现识别入侵行为,采取有效措施保护系统和网络安全的重要任务。

1 入侵检测系统

入侵检测系统(Intrusion Detection System, IDS)是软件与硬件相结合的系统,它进行主动的安全防御,对系统和网络的状态进行监视,分析一些关键点的信息,发现外部攻击者的非法入侵行迹和系统内部用户的不合理使用。目前,按照检测方法的不同,可以分为异常检测(Anomaly Detection)与误用检测(Misuse Detection)。异常检测是总结用户正常情况下的操作特征和对资源的使用情况,将其提取为正常模式存储在知识库中,然后将待检查的行为与其比较,如偏差超过设定的阈值,说明出现了异常。误用检测是总结入侵攻击行为模式存储于特征库,然后用匹配的方法将待检测数据与特征库中的模式匹配,若有匹配的模式出现,则说明有入侵。前者可检测出各种攻击,包含从未出现的攻击,但是误报率高。后者虽有高的检测准确率,但漏报率较高,对识别新出现的攻击有欠缺。另外,按数据源不同,入侵检测系统分为基于主机的IDS,基于网络的IDS和混合型IDS。基于主机的IDS的数据来自本地主机的系统日志与审计数据;基于网络的IDS的数据来源于网段中的数据包;混合型IDS是将前两者相结合的检测系统。

2 IDS引入数据挖掘技术

一个好的入侵检测系统应该具有自适应性,准确性和可扩展性。但是常用的IDS的入侵检测规则是通过人工学习补充建立的,安全领域人员了解系统漏洞问题和网络上已经出现 的攻击手段,经过学结,将其放入特征库,这样特征库的建立完善主要是依赖人的参与。但是,由于现在计算机网络的复杂性,网络攻击情况的多变性,还有网络安全人员对攻击的把握可能不完全准确,会导致IDS检测准确率的有限性。另外,网络数据流量非常大,建立一个完整的特征库要求安全人员的不断学习升级,这对IDS检测的准确性带来影响。将数据挖掘技术应用于入侵检测系统能有效地解决这些问题。

数据挖掘[1](DM,Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。它与人工智能、数理统计、并行计算、数据库等多学科交叉。数据挖掘的方法主要有关联分析、聚类分析、分类分析和序列模式等。本文的自适应入侵检测模型主要用到聚类分析和分类分析。

聚类分析:聚类是将一个数据集分成多个类的过程。聚类分析是一种没有训练数据集用来学习的无指导的学习,以一定的相似性度量方法将数据记录分成多个类,使得经过聚类后,同一个类中的数据有较高的相似度,不同类的数据没有相似性或相似性很低。在进行入侵检测时,一般认为那些包含着大量数据的聚类是正常行为特征的聚类,而包含数据较少的聚类是异常的,因为在实际网络中90%以上的流量都是正常的[2]。常用的聚类算法是K-均值聚类[3]。

分类分析:根据要分析的数据集的一些特征,发现某些数据的共同特性,将数据分成不同的类,得出类别的概念描述或分类规则,当新的数据需要检验时,根据分类规则,将其分到相应的类,常用的分类算法[1]有ID3、C4.5、CART等。

3 引入数据挖掘技术后的自适应入侵检测模型

数据挖掘技术用于入侵检测系统后,入侵检测系统可以自主的进行学习,从而将特征库中的规则不断自我完善,这样的入侵检测系统具有自适应性和可扩展性,检测的准确性也会得到提高。本文的入侵检测模型所用到的规则库不只是包含正常的模式或异常的模式,而是将两者结合起来,运用一定数据挖掘算法判断待检测数据为正常或异常的模型。

该入侵检测模型如图1,分为以下几个模块:

1) 数据采集:负责对用户、系统、网络数据流等信息进行收集;

2) 自适应模型:积累模式,用一定的数据挖掘算法产生的模式规则库(包含正常和异常);

3) 入侵检测:将数据采集器采集到的待检测的数据进行分析,判断是否有异常发生;

4) 入侵响应:当检测到异常时,采用一定措施进行响应的处理。

该自适应模型产生和补充完善算法如下,基础是K-均值聚类和决策树算法,将这两种算法进行结合、改进,形成该自适应模型的模式规则库产生与完善的算法。

算法:

1) 在原始的网络环境中收集网络数据(包含正常的和异常的数据)

2) 选择其中K条数据作为初始质心

3) repeat

4) 将每条数据指派到最近的质心,使之形成K个簇

5) 重新计算每个簇的质心(质心是簇中数据的均值)

6) until质心不发生变化

REPEAT

7) 将聚好的类分配类标号(1,2...K),作为下面进行分类的训练数据集

8) 用决策树进行归纳分类,产生分类规则

9) 按产生的规则,对一条新的待检测的网络数据(data_x)进行分类(属于某个簇),判断该待检测数据为正常或异常

10) repeat 重新计算每个簇的质心(加入了data_x,重新计算)

11) 将每条网络数据指派到最近的质心,形成K个簇

12) until质心不发生变化

该算法中,通过该自适应入侵检测模型,正常模式和异常模式规则库会不断完善,因为每条检测过后的数据,不论其为正常或异常,它都会作为一种对判断标准的补充加入到规则库,完善自适应入侵检测模型中的规则库,这样对后来待检测数据的判断也会更加精准。同时,该模型对判断异常数据的不同类型也有一定的区分能力,因为在K个聚类中,异常的聚类中的数据虽然较少,但也会分散在1-N(N

4 结束语

由于传统的防火墙技术本身的缺陷和不足,使得保护计算机网络安全的入侵检测技术越来越为人所重视。为了克服传统入侵检测系统的局限性,将数据挖掘技术引入到入侵检测系统是一个好的选择,能有效提高入侵检测系统的自适应性和检测准确性。该文将聚类算法与分类算法相结合引入入侵检测模型,提出了一种基于聚类的分类分析自适应入侵检测模型。

参考文献:

[1] 邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003,2:132-151.

[2] Ertoz L, Eilertson E, Lazarevic A, Tan P, Dokas P, Srivastava J,Kumar V . Detection and summarization of novel network attacks using data mining. Technical Report[R]. University of Minnesota.2003.

[3] Pang-Ning Tan,Michael Steinbach,Vipin Kumar.数据挖掘导论[M].范明,范宏建,等,译.北京:人民邮电出版社.,2006:310.

上一篇:基于关联分析的IDS报警信息的研究与设计 下一篇:视频技术在网络播放flash课件中的应用