个人信贷信用风险预测模型研究

时间:2022-03-22 09:23:15

个人信贷信用风险预测模型研究

摘要:随着我国互联网金融行业的持续规范和个人征信体制的不断完善,大数据机器学习在信贷风险控制中的作用逐渐凸显。文章在徐桂琼等学者研究的基础上进行改进,建立基于分类组合的个人信贷信用风险预测模型,其可以有效对非平衡数据集进行处理,以满足金融决策的实际业务需求。实证分析结果表明,该模型具有较高准确率,能够高效完成个人信贷违约预测,为行业可持续规范发展提供助力。

关键词:个人信用评估;TwoStep聚类;模型融合

高信任维持与低监管运营成本是互联网金融行业面临的核心难题,而基于机器学习的信贷风控模型从源头上提供了解决方案。风险控制意识与能力的不足曾一度成为行业的顽疾,并间接诱发了2018年以来的行业整顿风波。随着P2P业务“三降”、网贷机构转型、个人征信体系健全、金融牌照制度改革等监管举措的持续推进,行业秩序不断改善。如今互联网金融在强监管与促创新并存的政策环境下逐渐形成了新的行业生态。经历了从粗放式发展到集中整改,再到稳健经营的发展历程,监管部门及互金企业逐渐意识到依赖金融科技构建成熟的风控模式在行业可持续发展、企业降本增效中的决定性作用。《金融科技发展规划(2019~2021)》要求,“运用数字化监管协议、智能风控平台等监管科技手段,推动金融监管模式由事后监管向事前、事中监管转变”;众多企业和银行或依靠自身实力研发智能风控平台,或与金融科技公司及征信机构广泛开展业务合作,将以大数据机器学习为核心的信贷风控方案深度嵌入信用风险控制流程之中。已有研究表明,大数据机器学习为代表的金融科技技术能够挖掘颗粒状、实时性的非标准化信息,显著降低了商业银行的风险承担水平,使其盈利能力得到提升。然而,由于我国金融资源分布不均匀,金融科技应用存在较大的个体和地域差异,网络借贷中多头共债、逃废债现象仍频繁发生,亟待成熟、稳定的信贷违约预测模型的普及应用。目前学术界对机器学习在建立个人信贷风险控制模型中的应用进行了一定的研究与探索,但仍存在特征工程精度不高、缺乏与业务实际的结合等问题。

一、文献综述

机器学习算法在金融决策支持领域的应用已有丰富的成果,现有研究已经逐渐从单一算法的对比与择优转向不同算法间的集成与融合。集成学习通过把单个分类器的预测结果进行组合,以使模型得到性能上的提升。对于单一分类器的选取,常按照性能接近且相关性系数低的原则进行。目前学者已经尝试运用不同方法融合单一分类器结果,并总结出stacking、blending等有效的集成方法。丁岚、骆品亮以支持向量机为次级学习器构建stacking集成的违约评估模型,其相较于初级学习器显著降低了一类和二类错误比例。白鹏飞等采用加权投票对SVM、RF和XGboost预测结果进行集成,依据单个模型表现赋予其在加权融合公式中的权重。胡忠义等则针对以往集成方法中同一训练集用于所有分类器训练提出改进,在对样本进行K均值聚类后以不同的基分类器处理不同区域样本,从而构建出多分类器动态集成模型。王重仁等在移除低方差特征后使用特征递归消除法(RFE)进行特征选取,使用贝叶斯优化对XGboost算法进行超参数的调整,发现这种算法相对于网格搜索与随机搜索更加有效。董路安对机器学习算法指导决策树构建的传统教学式方法进行改进,在生成伪数据集过程中结合weight-SMOTE算法改变决策树的学习偏好,在准确度、解释性与一致性上均优于传统教学式方法与CART决策树。改良现有算法以适应信贷审核的业务特点与现实需求,是学者研究的又一重点。一方面,金融决策具有“高风险”特点,对预测结果解释性要求较高;另一方面,从业务实践中积累的训练数据往往高度不平衡,影响模型训练效果。欧盟颁布的《一般数据保护条例》(GDPR)中指出,银行所使用的信用风险评价模型需要为其预测结果提供必要的解释,以保证申请人平等的贷款获取机会。吴晖等提出模型无关类倾向评分归因算法,输出平均因果作用值(ACE)以衡量不同特征在多种算法中的解释性强弱,发现对于底层理论相似的模型,同一特征的解释性也相近。刘志慧等通过XGBoost算法构建违约预测模型,并将模型输出的概率值转换为传统的信用评分值,从而提高算法结果在金融业务中的可操作性。陈战勇在构建信用评分卡过程中同时考虑借款人“硬信息”和“软信息”,将定性变量经过WOE编码后依据IV值进行筛选,构建基于逻辑回归的信用评分卡模型,将借款人分类为从Aaa到C的九个等级。徐桂琼、李微在研究中重视金融样本高度不均衡造成的少数样本错误分类风险,运用TwoStep聚类思想对样本进行均衡化处理,从而构造结构平衡的训练集。但其方法存在一定缺陷,会导致逾期样本在训练集和测试集中重复出现,进而造成预测模型准确率虚高。本文对徐桂琼、李微提出的方法做出改进,提出基于TwoStep的改进组合分类算法。该文献在数据样本均衡化后得到的所有子集中,抽取一份作为测试集,其余为训练集。由于训练集与测试集中的逾期样本(即少数样本)为同一批,使得已训练过的数据被重复放入验证集中,导致测试结果准确率虚高。同时,这一方法只能得到比例均衡的测试集,无法有效测试模型在样本极度不均衡的信贷实际业务中的表现。因此,在综合应用粗糙集约减和递归特征消除法进行特征工程之后,本文提前将少数样本切分出一定比例用于组成验证集,剩余部分则按原方法进行训练集的构造。由此,在保证训练集正负样本比例均衡的同时,解决了少数样本重复使用的问题,亦使得测试集数据分布及正负样本比例均与原数据集保持一致。而相比于SMOTE等通过生成新增样本点来增加正样本比例的方法,本文所用方法避免了原本不存在的新增样本对数据集内在分布的改变。得到各份训练集后,本文参考了集成模型加权投票的思想,分别将各个分类器用于1份训练集而不是所有训练集进行训练,以防止模型过拟合,最后各个机器学习模型通过加权投票的方式得到最终的预测结果。

二、改进组合分类模型设计

(一)数据均衡化处理

设一不均衡样本数据集D,该数据集的目标列为0和1两个类别。该数据集中目标列值占多数的记为多数类样本集M,目标列值占少数的记为少数类样本集L。组合分类:经过数据均衡化处理后会产生k1个训练集及1个验证集,将k1个分类器分别训练各个训练集,最后让各个分类器进行加权投票,输出最终结果。利用验证集来评价模型的性能。由于在本文中k2=4,因此最后需要训练3个分类器。本文所采用的分类器为XGBoost,AdaBoost,高斯朴素贝叶斯模型。

(二)Xgboost模型

Xgboost在考虑正则化的前提下,使用任意一阶与二阶可导的函数作为损失函数,特定CART树作为弱学习器,用损失函数的一阶与二阶导数信息拟合损失函数中的残差信息。算法在第k次迭代中生成强学习器,其对第i个样本的预测结果y^i(k)为其中gi与hi是对应训练样本的损失函数的一阶和二阶导数信息,λ与γ是正则项中的惩罚系数,T为叶节点总数。在切分特征与特征的切分点的选取上,Xgboost算法采用CART树的切分方法,并通过自身定义的Gain指数衡量切分质量。

(三)朴素贝叶斯算法

朴素贝叶斯分类基于概率论中贝叶斯派的主张,通过对于参数θ的经验提供的先验分布与数据提供的样本信息估计给定样本X下参数θ的后验分布。比较相同样本在不同类别假设下的后验概率,将最大后验概率对应的类别作为本样本的估计类别。

三、实验与分析

本文基于LendingClub平台信贷数由表3可以发现,进行集成投票后,各项指标均有小幅提升,这是由于本模型的三个分类器分别对不同的均衡样本训练集进行了训练拟合,且通过投票加权的方式增强了模型的鲁棒性。而通过数据均衡处理后得到的验证集满足原来数据的分布,正负样本比例也维持不变,训练好的模型在该验证集上也能得到不错的效果。为了进一步验证被本文提出模型的有效性,利用原来数据中未进行数据均衡化处理的数据进行实验。其中由于本文所选取的验证集的样本为45524个,占总数据样本的25.0%,因此对传统单一模型所采用的训练集和验证集由总体数据样本随机切分得到,其中切分比例为训练集:验证集=3:1,但只取其中的训练集部分进行训练,对于验证集则进行丢弃,而用数据均衡处理得到的验证集用以进行最后模型效果的验证。通过以上的方法,即可保证传统模型和本文模型得到的有效训练和验证样本数量是一致的。考虑到切分的随机性,对切分实验重复进行50次取平均值,即可得到各单一模型训练的效果。通过表4可以得到,进行随机切分进行训练得到的各个分类器得分明显低于本文模型所训练出的分类器及集成投票模型。尽管传统XGBoost模型在准确率上仍有优秀的表现,但其其余的指标明显低于本模型所训练的XGBoost。由于验证集中正负样本比例为3:1,传统XGBoost模型准确率高而其他指标较低,这表明传统模型在预测多数样本集上有着较好的表现,但是在预测少数样本上不具有稳定好的表现。而传统AdaBoost模型和传统GaussianNB模型的表现也比本文所提出的模型更低。综上所述,从各个指标上看,各个传统模型在本数据集上的表现都不如本文所提出的模型。本文提出的模型能够适用于数据样本不均衡的情况,并且在保证性能的情况下做到对多数样本及少数样本的精准预测。因此,本文基于TwoStep聚类算法的改进组合分类方法能够有效适用于逾期风险监测。

四、结语

互联网金融行业在强监管政策的持续作用下,逐步摆脱了初期的粗放式发展路径,迎来了监管与创新并存的行业新生态。建立以大数据机器学习为核心的信贷逾期预测模型,符合《金融科技发展规划》的政策要求,是互联金融行业在新生态下实现可持续发展的关键举措。本文采用基于遗传算法的粗糙集法及递归特征消除(RFE)进行特征工程,并提出了基于TwoStep聚类算法的改进组合聚类算法将不均衡数据进行处理。随后,将XGBoost、AdaBoost、高斯朴素贝叶斯以上三种算法作为集成模型的子分类器进行训练,最后加权投票得到预测结果,构建出兼具准确性、解释性的信贷逾期预测模型。实证结果表明:相较于传统算法,本文所提出的模型有效提升了预测模型的准确性,与信贷业务实际需求更加契合。

作者:杨沛衡 吴东鹏 徐典

上一篇:货币资金与资金结存关系分析 下一篇:经济增加值创新财务治理模式分析