基于核主成分的支持矢量机信用评级

时间：2022-09-06 06:07:01

基于核主成分的支持矢量机信用评级

[摘要] 本文提出模糊支持矢量机的模糊规则提取方法，针对当前SVM的常见模型参数选择的方法的不足，引入遗传算法的自动模型选择优化方法；考虑到信用评级数据的非线性特征，提出了新的信用评级核主成分(KPCA)的特征提取方法，减少指标间的相关性，提高模型的预测精度；使用上市公司数据进行了实证分析，实验结果证明了该信用评级方法优于神经网络的方法，证明了该方法适用性。

[关键词] 信用评级模糊支持矢量机核主成分神经网络

一、引言

近年来，随着全球日益剧烈的经济波动和金融创新的发展，国际银行业面临的风险日益复杂，而信用风险是导致银行资产质量下降、出现流动性危机的主要根源，也是导致区域性及至全球性金融危机的根本原因之一。《新巴塞尔资本协议》要求各国银行采取内部评级法(Internal Ratings-Based Approach IRB)对客户的信用状况进行评估，并将结果转换为对未来潜在损失量的估计值，以此构成确定最低资本要求的基础。我国作为巴塞尔委员会的成员国，只有运用先进信用评级方法和技术，才能建立与国际接轨的信用评级体系，增强市场竞争力，持续、健康、稳定地发展。

特征提取是数据降维技术，目的是在保留尽可能多的信息的前提下，通过特征组合生成新的特征，尽可能的减少信息损失、减少冗余以降低特征集的维度。常用的特征提取方法包括主成分分析(PCA，Principal Component Analysis),Karhunen-Loeve变换、因子分析和粗糙集等，本文提出新的核主成分特征提取。

二、核函数主成分分析

对样本集{x1，…，xn}主成分方向是矩阵的特征向量。对x进行非线性变换φ(x)，且满足则新样本协方差为其特征向量v就是原样本集的非线性主成分方向,满足λv=Cv，将每个样本与该式内积，得

,特征向量。定义矩阵

可以得到:，其中a=[a1,a2,…,an]T设特征值大于0的特征向量为a1，a2，…，ap，将vr归一化(r=1,…,p)，向量x在变换空间中的主成分是φ(x)在vr上的投影;作为样本的提取特征。实际中不一定满足K用

代替，其中In是系数为的n维单位矩阵。满足选择P个最大特征值对应的特征向量构成P维特征子空间。KPCA特征提取算法的步骤可归结为:(1)初始化输入样本x，计算核矩阵。(2)在特征空间计算其特征值并标准化特征值;(3)找出最大的特征值和对应的特征向量;(4)对样本特征指标参数进行综合，提取样本的分类特征，实现样本特征提取。

三、基于遗传算法的支持矢量机

1.支持矢量机原理

支持向量机是从线性可分最优分类面发展的，最优分类线要求分类线能将两类样本正确分开，使分类间隔最大，分类线为w・x+b=0，对它进行归一化，使得对线性可分的样本集(xi,yi)，i=1,…,n,xi∈Rd满足yi[(w・xi)+b]≥1,…,i=1,…,n，此时分类间隔等于使间隔最大等价于使最小，解上述问题后得到的最优分类函数是:。

通过核函数的映射可以将SVM推广为非线性模型，SVM中模型核函数和参数的选择是SVM中模型泛化性能好坏的关键，常用的是交叉验证法，其中较为有效的是“留一法”(leave-one-out,简称LOO)，计算量非常庞大;Chapelle等应用梯度下降算法，Keerthi采用拟牛顿法，此类基于梯度的数值方法可能会陷于局部最优解。遗传算法(genetic algorithm,简称GA)是一类借鉴生物界自然选择和自然遗传机制的随机搜索算法,较以往传统的搜索算法具有使用方便、鲁棒性强、便于并行处理等特点。由于遗传算法善于全局搜索，且能以较大的概率找到全局最优解，本文引入GA选择优化模型参数。

2.省略xi.省略)，选用12个指标来衡量企业的财务状况:主营业务毛利率；所有者权益收益率;EBITDA/主营业务收入;速动比率;经营活动净现金/总债务;经营活动净现金/短期债务;经营活动净现金/利息支出;EBITDA利息倍数;总债务/ EBITDA;资产负债率;总债务/总资本;长期资本化比率。企业样本数据被分为了两类，第一类22个样本代表受评对象偿还债务的能力较强，违约风险较低;第二类23个样本代表受评对象违约风险较高。随机选取26个样本作为训练样本，其他19个作为模型测试测试样本。对原始特征进行KPCA特征提取，根据样本的取值范围设置核参数为10的高斯核函数，指标压缩为10个特征组合，新特征集累计解释了原始特征集95.29%的方差，因此特征提取后基本保留了所有信息。训练支持矢量机模型，遗传算法取变异概率为0.1，交叉率为0.6，训练SVM模型的测试准确率可达到89.47%。

五、结论

为了说明SVM模型处理企业信用数据的能力，本文将SVM模型的处理结果与神经网络的处理结果进行对比。将GA用于多层前向神经网络的权值和阈值的优化，隐层节点数5，训练10000次得到神经网络对测试样本准确率仅为78.95%。基于小样本RGA-SVM模型比神经网络模型具有更好的预测精度，在我国信用评级数据缺乏的背景下，验证了模型在信用评级达到了较好的效果，对我国商业银行信用评级体系的建立，具有实际应用和指导意义。

参考文献:

[1]宋余庆罗永刚:应用主分量分析与粗糙集处理的特征提取[J].计算机上程与应用,2004(22):48～50

[2]宣国荣郑俊翔:巴氏距离和K-L变换结合的特征选择[J].计算机上程与应用,2004(36):90～92

[3]范金城梅长林:数据分析[M].科学出版社,2002

注：本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

基于核主成分的支持矢量机信用评级

热门推荐更多>

精品范文更多>

基于核主成分的支持矢量机信用评级

热门推荐 更多>

精品范文更多>

热门推荐更多>