基于支持向量机的网络流量分类方法

时间:2022-04-28 10:18:51

基于支持向量机的网络流量分类方法

摘 要

本文将机器学习分类方法,引入到网络流量领域。结合构风险最小化原则,提出基于支持向量机的网络流量分类方法,将网络流量分类问题转化为二次寻优问题,以解决网络流量过程中训练样本较少和属性过滤等问题。实验表明,支持向量机网络流量分类方法,有效地保证网络流量分类的精度,具有较好的推广性。

【关键词】网络流量分类 机器学习 支持向量机

近年来,随着互联网规模的迅速发展,网络拥堵问题日益加剧。因此,容量规划、流量调度等网络流量控制策略成为网络安全与管理领域研究的热点问题。在网络流量分类研究中,分类对象通常是网络报文,而在海量的网络数据集合下,网络报文流量分类精度会因为维数的增高而下降。传统的分类算法有 近邻、朴素贝叶斯等方法。然而上述传统算法实际应用中,在已知样本有限情况下,难以构建有效的分类规则,无法保证分类精度。

支持向量机方法是建立在统计学习理论基础上,根据结构风险最小化原则,将分类问题转化为二次寻优问题(即寻找最优超平面),从而避免在分类学习过程中对训练样本的依赖,同时具有较高的分类精度。目前,支持向量机方法在文本分类、图像识别等多个领域,具有较好的推广性。因此,本文将支持向量机学习方法引入到网络流量分类中,以利用该算法的特点,解决实际的网络流量分类问题。

1 网络流量分类

目前主流的网络流量分类方法是以网络报文作为分类元素,按照一定的策略和学习算法进行分类,将特定端口的网络流量划分到相对应的网络,以便进行网络管理。但海量的网络报文数据呈高维分布,且大多数特征项决策因子较低,难以满足分类需求。因此,现阶段的分类方法均是ν络报降维处理,提取对分类有影响的特征项,即以报文序列相同的5元组作为取值对象(源IP、目的IP、源端口、目的端口、协议),构成网络流。其中网络流又分为单向流和双向流。单向流是以5元组的单向网络传输报文序列作为特征项。双向流是同一网络连接的双向报文5元组序列。通过对网络报文特征项的提取,建立特征集合,进而利用机器学习建立多分类问题。网络流量分类问题可以概括为:已知属性集合,报文流集合,利用分类学习算法构建模型,依据分类模型对未知网络报文进行分类。

2 支持向量机网络流量分类方法

支持向量机是建立在统计学习理论基础上,以结构结构风险最小化为原则,寻求最优超平面的学习方法。支持向量机的二次寻优问题可以表示为:已知样本x在样本集合m中存在n个样本,超平面为。其中,,,。

对于网络流量分类问题,本文采用“一对一”方法,根据支持向量机的特点,将多元的网络流量分类问题,转换为元分类问题,将分类判别函数转换为网络流量分类模型,即:

支持向量机网络流量分类方法可以描述为以下三点:

(1)通过将实际问题转换到高维特征空间中,构建分类决策函数,使得在原维数的非线性问题转换为线性可分,有效地提高分类精度。

(2)支持向量机将网络流量分类转化为二次寻优,在已知样本(训练样本)较少的情况下,能够保证分类的准确性。

(3)支持向量机通过最优超平面来优化分类器的学习能力,该方法不需要依赖网络流量样本的先验概率,具有较好的推广性。

3 实验结果与分析

本文选取Moore_Set数据集合中,提取10个数据子集(每个数据子集选取100条样本)。其中1个数据子集作为训练集,其他9个数据子集作为测试集。学习算法选取朴素贝叶斯算法和支持向量机方法进行比较分析,结果如表1。

从表1中可以看出,朴素贝叶斯方法分类方法,其准确率会随着训练集的增加而下降。特别是到900个训练样本时,分类准确率仅为56.95%。支持向量机分类方法相比较而言,分类精度不会随着维数的增高而下降,比较稳定。通过实验表明,支持向量机分类方法以最优超平面构建分类模型,在划分网络流量时,维数的增加,不会对分类结果产生较大的影响,相比较而言,支持向量机网络流量分类方法具有健壮性,有较好的推广价值。

4 小结

网络流量分类是近年来网络安全与管理领域的热点研究问题。目前主流的研究均是利用机器学习方法构建分类规则,从而完成多元分类问题。本文将支持向量机方法引入到网络流量分类学习中,并与传统方法进行比较研究。通过实验可以看出支持向量机方法在稳定性、准确率等方面均有明显优势,具有一定的推广价值。今后的研究重点在于如何从海量数据集中提取对分类有影响的子集,以进一步提高分类性能。

参考文献

[1]朱明.数据挖掘[M].合肥:中国科技大学出版社,2008:13-56.

[2]丁世飞等.支持向量机理论与算法研究综述[J].电子科技大学学报,2011(07).

[3]林平等.基于流统计特性的网络流量分类算法[J].北京邮电大学学报,2008(09).

[4]刘颖秋等.网络流量分类与应用识别的研究[J].计算机应用研究,2008(02).

[5]佘锋等.基于半监督学习的网络流量分类[J].计算机工程,2009(12).

[6]李平红等.一种混合约束的半监督网络流量特征选择方法[J].计算机仿真,2013(09).

作者简介

龚垒(1984-),男,河南省淅川县人。现为南阳医学高等专科学校助教。研究方向为计算机应用技术。

作者单位

南阳医学高等专科学校 河南省南阳市 473061

上一篇:中格自贸协定助力开发南高加索新潜力 下一篇:30 m拖轮整体吊装下水方案设计