数据挖掘技术在网络安全检测中的应用价值

时间:2022-08-30 04:06:37

数据挖掘技术在网络安全检测中的应用价值

吴 边

(中南大学 湖南长沙 410012)

【 摘 要 】 在网络运行中,经常出现由于恶意网络攻击行为、网络配置失误等引起的异常网络流量,这些偏离正常范围的异常流量会直接对整个网络服务质量造成影响,导致网络瘫痪,因此在网络运行时,进行安全检测并及时提供预警信息对保障网络安全正常运行十分重要。本文在介绍数据额挖掘技术的基础上,对利用挖掘领域中的隐马尔科夫模型建立基于异常检测的入侵检测系统进行了分析,并通过仿真实验验证了这一系统的可靠性,论述了数据挖掘技术在网络安全检测中的应用价值。

【 关键词 】 数据挖掘;网络安全检测;隐马尔科夫模型

1 引言

随着Internet的不断发展,网络与人们的日常生活工作关系更为密切,网络安全也成为人们越来关心的问题。而随着相关研究的不断深入,继防火墙之后的入侵检测系统成为常用的防护手段之一。入侵检测(Intrusion Detection)是通过收集和分析网络行为、完全日志、审计数据等网络信息以及计算机系统中若干关键点的信息来检查网络或系统中是否存在不安全行为或被攻击的迹象,其安全防护得以实现的关键是从获取的信息中提取出有代表性的入侵模式,而随着操作系统的日益复杂化,网络流量的迅速增加,入侵检测的审计数据也急剧增加,面对着海量数据信息中存在的大量冗余信息,传统的数据检索和统计分析的方法已经不能满足数据信息有效筛选和提取的要求。数据挖掘能够从大量的信息中提取出隐含在其中的具有潜在价值的信息和知识,应用在入侵检测中,能很好地解决这一问题。

2 数据挖掘技术

数据挖掘(DM,Data Mining),又称为数据采矿、资料探勘,它是数据库知识(KDD,Knowledge Discover in Database)中的一个步骤,它能从数据库大量的的数据中,通过自动搜索、分析、归纳将其中隐含的、先前未知并有潜在价值的信息揭示出来,挖掘出数据中的潜在模式。数据挖掘有直接数据挖掘和间接数据挖掘两类,其主要是通过对数据的分类、估计、预测、相关性分组或关联规则、聚类、描述和可视化,及复杂数据类型挖掘的方法,完成数据的挖掘。

数据挖掘在确定对象之后,通过对数据的选择、预处理和转换的准备工作,对经过转换的数据进行自动挖掘,并对结果进行评估和分析,最后将分析得到的知识同化集成到业务信息系统中。利用此技术来构建入侵检测模型,能很好地适应数据增大的趋势,提高入侵检测的精确性,同时基于机器学习的检测模型,对已知攻击模式变种或新型攻击有较好的适应性,另外,由于其存在不依赖于任何系统,同一数据挖掘工具能用于多个数据源,具有较强的可扩展性。

数据挖掘是依靠数据挖掘算法创建数据挖掘模型来实现的,数据挖掘的算法多种多样,其中马尔科夫模型及隐马尔科夫模型在数据挖掘领域的应用十分广泛。

3 数据挖掘技术在网络安全检测中的应用

3.1 网络异常检测

目前入侵检测技术常用的有基于误用(Misused)的检测和基于异常(Anomaly)的检测两种。误用检测是建立能够描述每一种供给的特殊模式的样本,通过对样本进行训练来实现对网络安全的监测。误用检测的查准率高,能详细提供每一种攻击的类型和说明,在入侵检测系统中的应用较为广泛。但由于其需要依靠人为的预先设定报警规则才能实现检测,只能检测已知攻击,一旦攻击者改变特征模式,这种检测方法往往无法辨别出来,且要维护攻击模式库的成本较为昂贵。

异常检测(Anomaly Detection)是是通过建立流量的正常行为模型来判断网络是否出现异常,其基础是反常活动和计算机不正当使用之间的相关性,利用异常检测能够更好地解决误用检测中存在的问题。

3.2 基于隐马尔科夫的网络异常检测

隐马尔科夫模型(HMM,Hidden Markov Model)是一种用参数表示用于描述随机过程的统计分析模型,是马尔科夫链的一种,其既具有一定状态数的隐马尔科夫链还具显示随机函数集,一个完整的HMM包含有隐含状态(N)、可观测状态(M)、初始状态概率矩阵(π)、隐含状态转移概率矩阵(A)和观测状态转移概率矩阵(B)五项元素,其能够利用收集的训练样本进行自适应学习,在使用其对一个问题进行解释时,须解决评估、解码和学习三个基本问题。

3.2.1入侵检测系统构建

TCP(Transmission Control Protocol,传输控制协议)数据包是网络入侵检测中使用的基本数据参数,TCP建立一个连接需要三次握手,而在描述这三次握手时,马尔科夫模型只能描述服务器(Server)与客户端(Client)的状态转移概率,而不能对其进行很好的抽象,HMM则增加了对观测值概率的描述,能更好地对TCP的执行过程进行描述,因而利用HMM以正常网络情况下TCP协议标志变化为样本参数建立的特征库体积更小,能更好地提高入侵检测系统的实时性。

应用隐马尔科夫模型建立基于异常检测的入侵检测系统共包括数据处理、数据训练、评估算法模块和响应模块四大模块,其中数据处理模块又包括数据采集和数据预处理,在构建系统时首先运用HMM算法对训练数据集进行训练,建立起基于HMM的正常网络行为特征模型,采集的TCP数据流进入数据包预处理模块后由其进行提取并转化,将数据流化为模型能够识别模式,由评估算法模块根据建立起的正常网络模型对其进行检测,如检测出异常则进行网络攻击报警,如无异常,则放行,其具体的系统流程如图1所示。

3.2.2网络攻击检测实验

利用建立起的入侵检测系统,以DARPA1999数据集作为训练数据和测试数据,从数据中随机抽取3000条包含SYN Flood攻击和Land攻击的两类攻击和正常的连接记录,在以20台计算机构成的局域网环境下进行实验,使用网络攻击检测率、误报率和漏报率作为参数,对基于异常检测的入侵检测系统进行性能测试,其持续攻击1分钟和5分钟的检测率均在99%以上,误报率、漏报率均在0.3%以下,验证了此系统具有较高的性能。

4 结束语

利用隐马尔科夫模型建立的基于异常检测的入侵检测系统的特征库体积较小,能较好地节省系统存储空间,且能利用机器学习对未知类型的网络攻击行为进行检测,具有较高的检测率和实时性。

参考文献

[1] 闫新娟,谭敏生,严亚周.基于隐马尔科夫模型和神经网络的入侵检测研究[J].计算机应用与软件,2012,(2).

[2] 肖隽.基于隐马尔科夫模型的电信网络入侵检测方法[J].中国科技博览,2010,(12).

[3] 张松红,王亚弟,韩继红.基于攻击意图的复合攻击预测方法研究[J].计算机工程与设计,2007,(21).

[4] 汪莉.浅谈基于数据挖掘的入侵检测技术的研究[J].科技视野,2012,(5).

[5] 王希忠,曲家兴,黄俊强等.网络数据库安全检测与管理程序设计实现[J].信息网络安全,2012,(02):14-18.

[6] 张大军,李运发,郑周.云计算中数据资源的安全共享机制[J].信息网络安全,2012,(08):79-82.

[7] 刘雪飞,王雪飞,王申强.网络线路数据流量监视的实现[J].信息网络安全,2012,(11):60-62.

[8] 黄建文,田宏强,裴健.运营商用户数据安全防护体系的探索与实践[J].信息网络安全,2012,(12):80-82.

作者简介:

吴边(1975-),男,东南大学,博士研究生,高级工程师;研究方向:数据挖掘在工程中的应用。

上一篇:针对Flash存储介质的数据恢复技术研究 下一篇:基于云计算的资源管理系统的研究