关于粗糙模糊支持向量机的探索

时间:2022-05-15 10:29:03

关于粗糙模糊支持向量机的探索

【摘 要】 基于粗糙集理论和模糊支持向量机思想,提出了一种新的支持向量机模型--粗糙模糊支持向量机(RFSVM)。采用UCI机器学习数据库中的数据,对比实验,RFSVM比传统支持向量机(SVM)和模糊支持向量机(FSVM)都有明显高的测试精度。

【关键词】 支持向量机 等价类 模糊支持向量机

Abstract : The paper is mainly about the exploration on the rough fuzzy support vector machine.

支持向量机(SVM)是20世纪90年代中期在统计学习理论的基础上由Vapnik提出的一种新的机器学习方法[1],它基于VC维和结构风险最小化理论[2](SRM),在很大程度上解决了传统机器学习中的维数灾难及局部极小等问题[3]。为了使SVM有更广的适应性,人们对其结构进行了多种改进。如概率支持向量机(PSVM),分配概率值为每一个样本,体现样本间的概率分布特性。

1.粗糙模糊支持向量机

设给定的训练数据集为:{xi,yi,ri,ti},其中i=1,L,N,相应的类标签为yi={-1,+1},其目标函数可以表示为:

min■wTw+C■[ti ξi+riηi]

其中:C■ξi是为了控制错误分类样本的数量;ti是模糊因子,用来控制样本的模糊隶属度,ri是等价类因子,用来控制样本的等价性。最优判别函数为:

f(x)=xign(w·x+b)=sign(■(αi+βi)yiK(xi·x)+b)

0≤αi≤Cti

0≤βi≤Cri

A. 确定聚类中心和类数

设样本中有类其聚类中心分别为vi(i=1,L,c),此时样本点元素xj对于聚类中心vi的隶属值记为uij∈[0,1],概率值记为tij∈[0,1]。依据模糊概率聚类的方式,利用Lagrange函数优化方法可得到:

i=1...c,j=1...N

B. 检测主体数据与噪声数据

有了聚类数目和相应的聚类中心就可以确定主体数据(对同类样本而言)和数据。其主要依据:(1)“异样”数据应该与主体样本足够的分开;(2)“异样”样本的数目应该远远少于主体样本的数。根据这两个特征就可以把“异样”样本与主体样本检测出来,主要算法为(ODM算法):

(1)令

p={pi|i=1,2,...,cbest}

(2)下面来确定主体数据与噪声数据:

初始:

如果cbest=1则p=p1m ,检测结束,全部是主体数据点;

否则cbest>1时,暂时丢弃p1m,设置p={pi|i=1,2,...,cbest-1}c*=cbest-1,q=1,r=0进入下一步:

再次设置临时分类,重复执行上步,直到c*=0 停止ODM算法。

此时,在p0中的训练数据点组成数据集 O,在pm中的训练数据点组成主体数据集M。

C.分配隶属度

分配隶属度主要根据训练数据点在这一类的相对重要性来设置,对于主体数据来说,依据数据点对于主体中心的距离来定义:

其中||·||是Euclidean距离,ε是一个非常小的正数, 是主体数据集的中心数据点,因此主体数据的隶属值的范围被定义到[ε,1+ε]中。对于外部噪声点数据来说,它的隶属值分配为 :

其中0

D.分配等价系数

粗糙模糊支持向量机的提出,重要的是如何根据样本数据的特点来分配它的等价性系数。在这里,我们考虑其属性的相同程度为其等价性比例:

定义等价类系数ri=C(a)/N,i=1,2,L,N

其中:N为样本总数;a={a1,a2,L,aj,L,ad}表示条件属性集合,d表示条件属性个数,j/d=1当表示全精度等价,j/d=90%表示90%等价,以此类推;C(a)表示所有样本中条件属性a相同的个数。

2.实验设计

对于验证粗糙模糊支持向量机模型RFSVM,实验分为两部分来进行:(1)两类样本实验;(2)多类样本实验。其中两类样本实验和多类样本实验的数据源都是从UCI机器学习数据库中选取的。所选取的数据集类别2~10不等,样本数150~846不等,属性数4~18不等。

在实验中我们比较了三种不同的支持向量机模型的测试,从每个数据集中随机选取3/4的数据作为训练集,其余的数据作为测试集进行实验,其中:SVM表示原始的SVM模型测试;FSVM表示模糊支持向量机模型测试;RFSVM表示粗糙模糊支持向量机模型测试。

在多类实验中,我们分别用多类分类中的1-v-1和1-v-a方法进行了测试,核函数选取了三种核函数来进行实验。

不论是1-v-1方法,还是1-v-a方法,iris,auto,vehicle三种数据在三种核函数的测试下,我们所提的粗糙模糊支持向量机(RFSVM)模型相对于原始SVM和FSVM的测试效果都有了明显的提高;machine数据在polynomial和RBF核函数下,glass数据在RBF测试下,RFSVM的测试结果也较SVM和FSVM有所提高。表3是多类分类1-v-1方法在核函数RBF下的分类测试精度。

结论

支持向量机能否很好地分类一个重要方面就是其模型能否有效提取数据的分布与关联信息。粗糙集理论方法的成功应用使人们对数据的等价类信息给予关注,本文将粗糙集信息利用结合到模糊支持向量机模型中,使得该模型有更强的信息提取和利用能力。所做的实验证明了我们所提的RFSVM模型优于传统的SVM和FSVM模型,大大提高了测试精度。

参考文献:

[1]Cortes C, Vapnik V. Support Vector Networks. Machine learning, 1995, 20(3):273 - 297.

[2]Vapnik V N. Estimation of Dependencies Based on Empirical Data. Berlin: Springer-Verlag, 1982.

[3]Hsu Chihwei, Lin Chihjen. A comparison of methods for multi-class support vector machines. IEEE Transactions on Neural Networks,2002,13(2):415-425.

(作者单位:沈阳职业技术学院 计算机系)

上一篇:化蝶的美丽与疼 下一篇:浅谈SQL数据为并发控制技术