基于IP报文Identification标识的网络异常流量检测

时间:2022-08-27 05:26:42

基于IP报文Identification标识的网络异常流量检测

摘要:由于相当一部分异常流量由于采用了特殊的生成机制而在结构上有别于遵循基本网络协议的正常流量,本文提出了一种基于IP报文Identification标识字段分布识别网络中异常流量的方法。通过CERNET网络不同时段的IP报文检测结果证明了该方法的准确性。

关键词:Identification标识;二项分布;异常流量检测

中图分类号:TP393文献标识码:A 文章编号:1009-3044(2008)30-0576-02

Abnormal Network Traffic Detection based on Identification Mark of IP Packet

ZHOU Ming1, XU Yan2

(1.Anhui Electric Power, Hefei 230061, China ; 2.Mechanical & Electrical Department, Suzhou Institute of Trade & Commerce, Suzhou 215031, China)

Abstract: A new method of abnormal network traffic based on the distribution of IP packets' Identification is proposed in this paper because many of abnormal network traffics are generated by special mechanisms, which are different from the ordinary traffics created on the basic network protocols. The correctness of this method is proved by the results of IP packets detect with different time on CERNET.

Key words: identification mark; binomial distribution; abnormal traffic detection

1 引言

随着Internet的发展,网络流量急剧增长,由于网络的发展具有一定的规律性,可以通过对网络协议的分析和网络流量的预测定义网络流量的正常行为,当观测所得的流量行为偏离正常时,对网络流量的进一步分析可能发现异常的原因。目前基于网络主干和边界的异常流量检测研究主要集中在流矩阵,报文分析等方面,但由于基于网络的探测,入侵和攻击行为也变得越来越普遍和复杂,这些方法在测量规模和粒度上不能达到很好平衡。本文提出了一种基于IP报文Identification标识字段分布的异常流量识别方法,可以以较小的代价有效地识别网络中的

流量异常,适用于主干网络和边界网络,并通过实验验证了其可行性。

2 问题提出

目前Internet绝大部分使用TCP/IP协议簇进行网络传输,而IP协议是其中最重要也是最基本的协议。位于应用层的协议通过将服务内容切割成分片(fragment)的形式传递给TCP层协议,在TCP层加上相应的头部信息又传递给IP层。由于在接受端需要对分片进行重组获得完整的服务内容,而网络的延时、拥塞和报文本身的传输方式都可能导致分片的乱序,所以需要对IP报文进行标识。在IP协议[1]中Identification字段用于标识该报文而区别于来自相同源宿地址对使用同一个协议的其他报文。由于该字段被定义为16bit长,也就是说它所能表示最大数目为216即65536。为保证服务的正常,网络中必须确保来自同一IP地址使用相同协议的报文应当有其唯一的Identification标识(该标识值位于0-65535之间)。

在文献[1]中并没有给出Identification标识的具体取值方式,但由于规定了其取值范围,采用不同取值方式的主机所选取的初始Identification应当是一个位于0-65535之间的随机数且取值相互独立,而大部分服务被分解为若干个IP报文进行传送,在每个主机中都维护一个计数器(Counter),每发送一个IP报文该计数器加1。可以做出以下假设:

假设1 在较大规模网络中,从宏观的角度分析Identification标识的取值是近似均匀分布的。

经过大量实验证明,在绝大多数情况下,Identification标识是近似均匀分布的,有关实验的验证将在下节中具体介绍。在假设1的基础上,根据Identification标识的选取方式可以做出相关结论如下:

引理1 在较大规模的网络中用于正常服务的IP报文的Identification标识是近似服从参数为n,p的二项分布,其中n为65536,p为0.5。

证明:由于每个源主机所发送的Identification标识是随机或者采用一定的机制选取的,而每个源主机选取的方式是相互独立的。设每个IP报文所对应的Identification为随机取以下值之一:X1=0,X2=1,…,Xn=n-1(n为65536),它们的取值服从同一(0-1)分布,其分布率为:

已知X1+X2+……+Xn服从二项分布,那么比较容易证明X是近似服从参数为n,p的二项分布。

分异常IP报文,它们的主要来源之一是人为构造的攻击报文。这些异常IP报文和正常IP报文共同构成了网络中存在的IP报文。

引理2 在网络中实际观测到的IP报文Identification标识的分布应当是正常IP报文分布和异常IP报文分布的叠加。

因此,可以通过区分这两部分分布,有效地识别网络中可能存在的流量异常,为其他检测方法(如报文分析)提供预警,从而为网络行为分析、入侵检测等提供必要的依据。

3 基于标识字段的异常检测方法

本文基于IP报文Identification标识的角度将IP报文分为正常IP报文和异常IP报文,整个网络的流量也是由其分别对应的正常流量和异常流量构成的。从较大规模网络(主干网络和部分局域网)的角度分析,正常IP报文Identification标识的分布规律由引理1可知近似为二项分布,而异常报文的分布具有随机性和多样性,也就导致了其的不可预测性。但是根据引理2,可以通过绘制网络流量曲线并从中分离出正常流量,就可以得到目前网络中异常流量的曲线,然后对这些流量的进一步分析就可以获得或部分获得流量异常的原因。

将获取的所有IP报文不同Identification标识数量的非空有限集合定义为P, 则根据IP协议的定义可知:,其中隶属于正常IP报文的集合定义为 ,异常IP报文的集合为Pb,P=PaUPb。

根据引理1可知,在集合Pa中j应服从参数为(na,0.5)的二项分布,则集合中的元素pa(x)的值应当基本等于其均值。采用报文总数n乘以一个预定义的比例r来估计正常IP报文的数量,由于在非极端情况下,正常IP报文数量占报文总数量的绝大多数,所以r值的估计偏差比较小,还可以根据网络当前的状况动态地调整r的取值。这样就可以从IP报文集合里分离出正常IP报文集合,从而获得异常IP报文结合,然后根据异常IP报文集合中元素的分布状况给进一步分析提供依据。

对异常IP报文的分析,主要通过定义一个阈值(Fthreshold)来将可能存在的网络异常流量从其他原因所引起的噪声区别出来,这个阈值可以设定初始值然后根据识别结果动态修正。

基于IP报文Identification标识的异常流量发现算法

通过大量的实验证明,在一般情况下,异常IP报文的Identification集中在0附近,有时还出现个别标识的报文数量偏移平均值较远。

4 流量行为的实例分析

针对CERNET主干网络的长期观测结果显示,在大多数情况下,Identification标识的分布是十分均匀的,具有某个特定Identification值的IP报文数量均在基于标识的平均报文数量附近。从整个分布曲线来看,IP报文数是围绕平均值作平稳的小幅振动,这也证实了第2节所提出的假设1。

观测结果还发现,在所有观测时段中,Identification标识为0的IP报文数量远远高于平均值,这与文献[2]中实验观察结果相一致,这不符合正常IP报文均匀分布这个论断,所以在标识为0的IP报文中有可能大量存在非正常报文。对Identification标识为0的IP报文进行分析发现,有大量相同源宿IP和相同端口的IP报文在短时间内重复出现,所以导致了标识为0的IP报文数量大大超过平均值,在剔除了这些异常报文之后,所剩的IP报文数量非常接近于平均值。由此可见,标识为0的IP报文数量异常的主要原因是因为大量存在这些异常IP报文。对实验观测所得的其他标识的IP报文数量异常进行进一步分析,发现结果与此相类似。在实验中还发现相当数量的来自同一源IP和源端口对应不同宿IP的相同宿端口的IP报文,这是典型的扫描攻击的表现。

本文对不同时段在CERNET主干网采集的IP报文进行分析(每个时段持续10分钟),分析所得报文分布曲线如图1所示。

选取参数r=0.98, 获得各个时段对应正常报文集合Pa,并从总体IP报文集合中去除正常IP报文集合获得异常报文数量分布曲线如图2所示。

采用初始阀值Fthreshold=1,除去了可能存在的网络其他噪声后,可以得到在Identification标识为若干特定值的IP报文中可能存在相当数量的异常报文,从而为进一步的报文分析提供预警。实验数据显示,在2007年8月17日01:00和2007年8月21日22:00在网络中存在一定的流量异常。

5 结束语

本文提出了一种新型的基于IP报文Identification字段进行网络异常流量发现和分析方法,该方法的主要优点在于算法简单,所占用的系统资源较小,误报率低,可以较方便地嵌入到目前流量检测工具中和其他报文分析方法及工具结合使用等等。但是由于其观测的对象所限,该方法并不能有效地发现伪装成正常IP报文的异常流量,它必须和其他报文分析工具配合使用才能达到最佳的效果。

参考文献:

[1] DARPA Internet Program Protocol Specification.Internet Protocol. Information Sciences Institute University of Southern California.1981(RFC791).

[2] 程光.大规模高速IP网络流量抽样测量及行为分析研究[D],东南大学博士论文,2003(1):41-44.

[3] 程光,龚俭,丁伟.基于抽样测量的高速网络实时异常检测模型[J],软件学报,2003,14(3):594-599.

[4] 邹柏贤.一种网络异常实时检测方法[J],计算机学报,2003,26(8):940-947.

[5] 高艳,管晓宏,孙国基,等.基于实时击键序列的主机入侵检测[J],计算机学报,2004,27(3):396-401.

[6] 徐永红,杨云,等.基于权重包标记策略的IP跟踪技术研究[J],计算机学报,2003,27(11):1598-1603.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:人工神经网络研究与发展综述 下一篇:浅谈计算机自动重启的原因与处理方法