一种不平衡数据支持向量机分类算法

时间:2022-10-30 03:12:40

一种不平衡数据支持向量机分类算法

摘 要 针对标准支持向量机在处理不平衡数据问题的缺陷,提出一种解决方法,首先采用一种改进上采样方法(Over-sampling)—SMOTE来平衡正负样本的数目,达到缓解两类样本数目悬殊的目的。然后引入差异惩罚思想对两类样本进行不同程度的惩罚。实验表明,本文提出的SDPC-SVM分类算法在处理不平衡数据的分类问题上具有可行性与有效性。

关键词 数据;支持向量机;分类算法

中图分类号:TP391 文献标识码:A 文章编号:1671-7597(2013)12-0034-02

支持向量机(Support Vector Machine,SVM)是20世纪90年代由Vapnik提出的一种新的学习机器。支持向量机采用结构风险最小化原则,以最大化分类间隔构造最优分类超平面来提高分类器的泛化能力。标准的支持向量机是在假设数据样本分布平衡情况下,具有较高的分类精度。而大多数的实际情况是正负样本数目的差异很大,标准的支持向量机的分类性能并不理想。针对不平衡数据情况下的支持向量机分类问题,现有的研究主要分为两个方面的内容:一是通过实验分析属性分布对分类的影响,验证有偏性的存在;二是采用适当的方法重构训练样本集,来提高分类性能。文献[4]提出的一种代表性的Under-sampling方法,该方法主要通过减少分类超平面附近的样本以及精减远离分类超平面的一些冗余样本等措施,以求达到正、负两类样本数平衡的目的。但SVM分类的关键在于支持向量,通常情况下,在减少分类线附近的样本时会导致分类信息的丢失,进而影响分类性能;因此,我们提出了一种SDPC-SVM方法,该方法通过引入差异惩罚思想以及SMOTE重采样技术,在不破坏原有样本的分布的基础上,随机地增加出一些新的少数类样本,以求实现SVM在不平衡数据分类情况下分类性能的改进和提升。

1 支持向量机简介

从上表1中,我们可以看到,本文所提出的SDPC-SVM算法和其它三种算法相比较在分类性能上有明显的优势,在十个实验数据集中我们提出的算法在其中的七个上取得最高的g平均测度,同时,SDPC-SVM算法在所有实验数据集中的性能均比OS-SVM算法优秀。而剩余的三组实验数据的g值与其他方法相差也不大。通过上述实验表明,SDPC-SVM算法在处理不平衡数据问题上具有可行性及有效性。

4 结论

标准的支持向量机算法没有考虑不平衡数据对分类的影响,在处理不平衡数据分类问题时会倾向于多数类,而导致分类精度的下降。针对不平衡数据分类问题,我们提出了一种解决方法,该方法从两个方面对不平衡数据进行处理,首先在不破坏原有样本分布规律的情况下适当增加少数类样本,以缓解正负样本数量悬殊的问题。同时,引入差异化惩罚思想对两类样本进行不同程度的惩罚。通过实验表明,本文所提出的SDPC-SVM算法在处理不平衡数据分类问题时要优于其他方法。

参考文献

[1]Vapnik V. The Nature of Statistical Learning Theory[M].NewYork,USA:Springer-Verlag.1995.

[2]SMOTE和Biased-SVM相结合的不平衡数据分类方法[J].计算机科学,2008,35(5):174-176.

[3]郑恩辉,李平,宋执环.不平衡数据挖掘:类分布对支持向量机的影响[J].信息与控制,2005,34(6):703-708.

[4]Kubat M, Matwin S. Addressing the curse of imbalanced training sets:one-sided selection[A].Proc 14th Int Conf Machine Learning (ICML'97)[C].Nashville,TN,USA,1997(1):179-186.

[5]杨志民,刘广利.不确定性支持向量机原理及应用[M].北京:科学出版社,2007.

[6]刘万里,刘三阳,王金艳.不平衡支持向量机的调整方法[J].计算机科学,2009,36(3):148-152.

[7]解丹蕊,韩建新,薛惠锋.非均衡数据的支持向量机新方法[J].计算机应用研究,2009(5):1654-1655.

上一篇:配电网高级应用软件的设计与研究 下一篇:短波广播传输链路分析