数据挖掘模型在入侵检测系统中的应用

时间:2022-10-13 06:23:42

数据挖掘模型在入侵检测系统中的应用

0 引言

20世纪90年代以来,互联网及计算机网络技术经历了跨越式发展。[1]它被广泛应用在经济、文化、军事、教育和社会生活的各个方面。然而,由于缺乏互联网安全考虑,这些缺陷被某些怀有特殊的目的的有意或无意地人所利用,导致在网络上的攻击和滥用的事件时有发生。如何建立一个安全和可靠的网络系统确保重要信息的安全性已成为研究的重点。以前的防火墙策略,可以防止使用协议漏洞、地址假冒和其他的攻击手段,并提供安全的数据通道的应用层的后门。但它对未授权操作的内部用户的攻击、或者越权操作破坏信息的行为却无能为力。此外,由于防火墙在网络中的位置在明处,设计缺陷不可避免地被暴露在众多攻击者中。因此,只凭借防火墙是很难抵御各种层出不穷的攻击。为了保证网络系统的安全性,需要一种能够及时发现未授权或异常现象和报告系统,即入侵检测技术。[2]

1 入侵检测技术介绍及其局限性

传统的入侵检测技术是基于知识的误用入侵检测技术。它是建立在过去已知的网络入侵方法和缺陷知识的积累之上,该技术的核心是模式匹配,它具有较简单的算法,误报较少的优点,但它只能被找到已知的入侵攻击,对未知攻击无能为力。随着计算机通信的迅速增长的和多样化的攻击手段,漏报和误报的问题也更加突出。现有的入侵检测模型还存在以下问题:入侵检测的实时性、对入侵行为的积极反应、系统资源的占用等。因此,未来的入侵检测技术的发展趋势是:明确入侵检测系统在网络信息安全框架中的作用;基于主机和网络的入侵检测系统的整合;检测系统自己的安全问题;不同检测系统之间的互操作性等。

2 数据挖掘技术

网络技术、数据库技术以及Web技术的出现加强了信息和数据收集能力。企业管理、行政办公、科研和工程开发使用数以千计的数据库,大量的数据导致新问题的出现。从现有数据库中发现新知识的核心技术——数据挖掘(Data Mining)从此产生。数据挖掘首先来自大型零售商面对的决策支持问题而来,它从大量的不完整的、有噪声的、随机的、模糊的随机数据中,提取事先未知、但潜在有用的信息和知识的过程。[3]KDD是在数据库中确定新颖的、有潜在价值的非平凡过程和最终可理解的模式的挖掘知识发现的重要关键阶段。在实际系统中收集的原始数据是混乱的、重复的且不完整,所以知识发现在各阶段也是一个反复的过程。数据采集是确定需要分析的数据集合,并划定处理范围;数据预处理包括数据集成、数据转换、数据清理和数据约简几个方面。[4]

3 基于数据挖掘技术的入侵检测系统

通过分析历史数据可以提取出用户的行为特征,总结入侵行为的规律,从而建立起比较完备的规则库来进行入侵检测。该过程主要分为以下几步:

1)数据搜集:源于网络的检测系统数据,可用的工具如TCPDUMP。

2)数据预处理,数据挖掘的训练数据的质量直接影响所提取的用户的特点和规律得出的入侵检测系统,包括所使用的数据模型入侵者的行为,那么以后建立的检测系统的准确性将不能够对此入侵行为的做出任何反应,造成漏报。可见,用于训练的数据必须不包含任何入侵,需被格式化成某种可被数据挖掘算法所处理的形式。

3)数据挖掘:用户行为特征提取预处理后的数据,然后将所得的规则合并并更新,并建立一个规则库。

4)入侵检测:根据规则库规则检测当前用户的行为,根据所取得的结果果,采取不同的应对机制。

在上述规则的基础上,可建立一个采用关联分析方法的基于数据挖掘的入侵检测系统。该系统主要用于异常检测,其核心是从数据中挖掘正常的、异常的行为规则,建立入侵检测规则库,在此基础上,根据发现的证据检测入侵行为。我们使用高效的数据挖掘方法来实现的全过程,它可分为以下三个步骤:

① 特征提取:在该系统中,包含四个数据源,即系统审计日志、应用层的系统调用、数据包和已知的攻击策略。相同的数据源有不同的属性,也就需要使用不同的数据挖掘算法发现其中隐含的规律,不同的算法需要使用数据的不同特点,我们首先利用PCA分析法自动提取数据从而奠定规则的基础。

② 规则发现:为不同类型的数据,采用不同的数据挖掘算法发现其中的规则。数据描述系统缺陷和已知的攻击方法,由于决策树方法具有较高的精度和效率,我们使用CART算法进行处理,以发现分类规则;对于审计数据采用分类和关联分析相结台的方法,以发现关键属性间的协同作用;对系统调用序列数据,使用序列模式挖掘算法。

③ 相似性度量:建立规则库后,对于所发现的证据,除了根据计算攻击的保护规则确定的行为是否构成保护计算的攻击之外,还需根据规则库中的规则要求指标阈值,以决定是否要更新规则库。

本模型将专家知识库误用检测技术与协同入侵检测技术相结合,有较强的入侵检测能力。其关联入侵规则是基于数据挖掘的算法而生成,从而使系统可自适应的产生具有可信度较高和一定支持度的协同入侵规则,具备一定的检测未知模式入侵行为的能力。

参考文献:

[1]费洪晓、戴宏伟,基于协议分析的入侵检测系统设计与实现信息技术,2007,3.

[2]孙伟平、顾恩超,一种基于关联规则的分布式入侵检测模型,微

处理机,2008(1).

[3]刘国军、梁声灼,基于数据挖掘的入侵检测技术,计算机与现代化,2007(9).

[4]景波、刘莹,基于协同技术的入侵检测研究与应用,江苏电机工程,2006(2).

作者简介:

钟家洪(1974-),男,汉族,江西赣州人、控制理论与控制工程硕士研究生,研究方向:电子、电气、自动化及计算机。

上一篇:生态建筑设计方法初探 下一篇:钛合金手表零件的车削加工