基于核主成分的支持矢量机信用评级

时间:2022-09-06 06:07:01

基于核主成分的支持矢量机信用评级

[摘要] 本文提出模糊支持矢量机的模糊规则提取方法,针对当前SVM的常见模型参数选择的方法的不足,引入遗传算法的自动模型选择优化方法;考虑到信用评级数据的非线性特征,提出了新的信用评级核主成分(KPCA)的特征提取方法,减少指标间的相关性,提高模型的预测精度;使用上市公司数据进行了实证分析,实验结果证明了该信用评级方法优于神经网络的方法,证明了该方法适用性。

[关键词] 信用评级 模糊支持矢量机 核主成分 神经网络

一、引言

近年来,随着全球日益剧烈的经济波动和金融创新的发展,国际银行业面临的风险日益复杂,而信用风险是导致银行资产质量下降、出现流动性危机的主要根源,也是导致区域性及至全球性金融危机的根本原因之一。《新巴塞尔资本协议》要求各国银行采取内部评级法(Internal Ratings-Based Approach IRB)对客户的信用状况进行评估,并将结果转换为对未来潜在损失量的估计值,以此构成确定最低资本要求的基础。我国作为巴塞尔委员会的成员国,只有运用先进信用评级方法和技术,才能建立与国际接轨的信用评级体系,增强市场竞争力,持续、健康、稳定地发展。

特征提取是数据降维技术,目的是在保留尽可能多的信息的前提下,通过特征组合生成新的特征,尽可能的减少信息损失、减少冗余以降低特征集的维度。常用的特征提取方法包括主成分分析(PCA,Principal Component Analysis),Karhunen-Loeve变换、因子分析和粗糙集等,本文提出新的核主成分特征提取。

二、核函数主成分分析

对样本集{x1,…,xn}主成分方向是矩阵的特征向量。对x进行非线性变换φ(x),且满足则新样本协方差为其特征向量v就是原样本集的非线性主成分方向,满足λv=Cv,将每个样本与该式内积,得

,特征向量。定义矩阵

可以得到:,其中a=[a1,a2,…,an]T设特征值大于0的特征向量为a1,a2,…,ap,将vr归一化(r=1,…,p),向量x在变换空间中的主成分是φ(x)在vr上的投影;作为样本的提取特征。实际中不一定满足K用

代替,其中In是系数为的n维单位矩阵。满足选择P个最大特征值对应的特征向量构成P维特征子空间。KPCA特征提取算法的步骤可归结为:(1)初始化输入样本x,计算核矩阵。(2)在特征空间计算其特征值并标准化特征值;(3)找出最大的特征值和对应的特征向量;(4)对样本特征指标参数进行综合,提取样本的分类特征,实现样本特征提取。

三、基于遗传算法的支持矢量机

1.支持矢量机原理

支持向量机是从线性可分最优分类面发展的,最优分类线要求分类线能将两类样本正确分开,使分类间隔最大,分类线为w・x+b=0,对它进行归一化,使得对线性可分的样本集(xi,yi),i=1,…,n,xi∈Rd满足yi[(w・xi)+b]≥1,…,i=1,…,n,此时分类间隔等于使间隔最大等价于使最小,解上述问题后得到的最优分类函数是:。

通过核函数的映射可以将SVM推广为非线性模型,SVM中模型核函数和参数的选择是SVM中模型泛化性能好坏的关键,常用的是交叉验证法,其中较为有效的是“留一法”(leave-one-out,简称LOO),计算量非常庞大;Chapelle等应用梯度下降算法,Keerthi采用拟牛顿法,此类基于梯度的数值方法可能会陷于局部最优解。遗传算法(genetic algorithm,简称GA)是一类借鉴生物界自然选择和自然遗传机制的随机搜索算法,较以往传统的搜索算法具有使用方便、鲁棒性强、便于并行处理等特点。由于遗传算法善于全局搜索,且能以较大的概率找到全局最优解,本文引入GA选择优化模型参数。

2.省略xi.省略),选用12个指标来衡量企业的财务状况:主营业务毛利率;所有者权益收益率;EBITDA/主营业务收入;速动比率;经营活动净现金/总债务;经营活动净现金/短期债务;经营活动净现金/利息支出;EBITDA利息倍数;总债务/ EBITDA;资产负债率;总债务/总资本;长期资本化比率。企业样本数据被分为了两类,第一类22个样本代表受评对象偿还债务的能力较强,违约风险较低;第二类23个样本代表受评对象违约风险较高。随机选取26个样本作为训练样本,其他19个作为模型测试测试样本。对原始特征进行KPCA特征提取,根据样本的取值范围设置核参数为10的高斯核函数,指标压缩为10个特征组合,新特征集累计解释了原始特征集95.29%的方差,因此特征提取后基本保留了所有信息。训练支持矢量机模型,遗传算法取变异概率为0.1,交叉率为0.6,训练SVM模型的测试准确率可达到89.47%。

五、结论

为了说明SVM模型处理企业信用数据的能力,本文将SVM模型的处理结果与神经网络的处理结果进行对比。将GA用于多层前向神经网络的权值和阈值的优化,隐层节点数5,训练10000次得到神经网络对测试样本准确率仅为78.95%。基于小样本RGA-SVM模型比神经网络模型具有更好的预测精度,在我国信用评级数据缺乏的背景下,验证了模型在信用评级达到了较好的效果,对我国商业银行信用评级体系的建立,具有实际应用和指导意义。

参考文献:

[1]宋余庆罗永刚:应用主分量分析与粗糙集处理的特征提取[J].计算机上程与应用,2004(22):48~50

[2]宣国荣郑俊翔:巴氏距离和K-L变换结合的特征选择[J].计算机上程与应用,2004(36):90~92

[3]范金城梅长林:数据分析[M].科学出版社,2002

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

上一篇:利用并口实现商场设备自动化控制 下一篇:现代商业设施内无线局域网的建设方案