房屋贷款审核系统―类神经网络的应用

时间:2022-09-16 03:23:10

房屋贷款审核系统―类神经网络的应用

[摘要]本文之主要目的在于藉由三种分析工具―即判别分析、logistic回归及类神经网络分析,建立一套客观完整的房屋贷款信用评估模式,以帮助金融机构有效降低呆账比率,并藉由数据挖掘的分类技术,了解房屋贷款违约发生的主要因素。

[关键词]房屋贷款类神经网络

一、引言

对金融机构授信部门而言,数据挖掘技术已经开始扮演着日益重要的角色,如何发掘房屋贷款户数据库中所包含的信息,并利用这些信息及早预测出可能发生违约的不良房屋贷款户,并拒绝贷款给这些高危群,藉此降低呆账发生机率,同时减少金融机构损失,这就是房屋贷款信用风险管理。以往银行大多使用人工方式对申请人的信用状况,依照5C的原则,即房屋贷款户的特性、还款能力、资本、抵押品及总体经济环境,进行相应审核,但面对日渐增多的申请案件,若要维持人工审件,银行势必花费可观的人力成本。同时,人工审件时,审核人员大多根据经验主观判断申请人的信用状况,为此银行必须研发正确、有效且快速的信用审核制度。

二、审核系统建构方法

1.类神经网络模式

类神经网络是目前发展极为迅速的一门学科,其最大的优点是除可应用于拟合非线性形式外,还能弥补多元回归及建立ARIMA 模型时受诸多假设约束的缺陷。

类神经网络的网络型态有许多类,其中以倒传递类神经网络为最具代表性、应用最广的模式之一。其网络结构一般而言包含三层神经元:输入层、隐藏层及输出层。类神经网络对于变量的选取有较大的自由度,没有如回归分析般的限制,研究者须以文献、专家意见判断或经由统计方法处理,进而选取输入层的输入变量。而在输入层之变量决定后,对于网络结构中的隐藏层数目、隐藏层中神经元数目、训练的学习率大小等,都需要以主观逻辑判断,或以不同组合加以测试,以找到能产生最佳预测结果的参数。

2.判别分析

判别分析要求数据满足独立同分布,以及正态性的要求(Johnson等,1998),根据Fisher(1936)的线性判别模型,具体可表示如下:D=B0+B1X1+B2X2+…+BnXn

其中:D为鉴别分数;B0为估计常数项;Bn为估计系数;Xn为自变数。

判别分析主要优点是简洁方便,并能整合预测变量,而其主要的问题则为违反正态性等假设时模型的拟合效果会较差,目标维度的简化难以说明每个变量的相对重要性、难以使用在时间序列数据上,且当数据型态不符合相关研究工具的要求时,可能得到相当不理想的分类结果。

3.logistic回归

Logistic回归种应变量Y仅有两个可能类别结果,以0与1表示二元变量,例如分析发卡银行是否核准发卡给信用卡申请人,按照审核结果,其反应变量定义为发卡或是拒绝发卡,而自变量可以是任何形式的变量数据,其回归模型的参数利用最大似然法估计得到。

三、实证研究

本文采用我国台湾地区某金融机构大台北地区房屋贷款户共510笔资料进行实证研究,分成两组作实证研究,第一组为人口统计变数,采用性别、申贷时年龄、婚姻状况、教育程度、职业、服务年资、月收入等七个人口统计变量作为评估房屋贷款户是否违约的自变量。第二组为所有变量,采用除上述七个人口统计变量外,另加入其他十一个变量,即月付金占总收入比例、贷款成数、有无保证人、借保人关系、有无政府优惠贷款、自住或非自住、贷款型态、贷款金额、屋龄、借保人申贷时之信用状况、房屋是否为小坪数/国宅/工业区等,共十八个变量作为评估房屋贷款户是否违约的变量。

数据库中共包含510个样本,其中有90%的房屋贷款户属于缴息正常的客户,10%的房屋贷款户属于违约的客户。所谓缴息正常客户,表示房屋贷款户在贷款期间未发生异常行为,包括逾期缴款、催收或呆账等行为;至于曾发生异常行为中任意一项,银行均将此客户视为违约客户。

在实证过程中,本文将分别采用SPSS 10.07和Vesta出版的Qnet(1998)软件分别进行分析。

1.判别分析实证结果

由于房屋贷款户申请数据的可能自变量较多,为取得较精简的自变量,本研究使用逐步判别法进行判别分析,并且依据各变量的U统计量作为删减变量的准则。根据逐步判别分析的结果,第一组人口统计变量被删减成婚姻状况及教育程度2个较为显着的变数;第二组所有首先依违约比率10%随机抽出350笔样本作为回归样本,其余160笔(违约比率变量(即人口统计变量及其它变量),被删减成月付金占总收入比例、贷款成数及贷款金额等3个较为显着的变数。

根据相关分析结果,第一组整体的正确判别率为75.0%,第二组整体的正确判别率为79.4%,第二组所有变量所建立的判别方程优于第一组人口统计变量所建立的判别方程。

2.logistic回归实证结果

本文利用逐步logistic回归进行分析,并且依据各变量的t值作为变量采用的准则。根据分析的结果,第一组人口统计变量中7个变量筛选出婚姻状况及教育程度等2个较为显著的变量;第二组所有的18个变量筛选出贷款成数、月收入及自住或非自住等3个较为显著的变量。再按照所选出来的显著变量分别建立房屋贷款户核准与否的logistic回归方程。

根据相关分析结果,第一组整体的正确判别率为84.4%,第二组整体的正确判别率为85%,第二组所有变量所建立的判别方程优于第一组人口统计变数所建立的判别方程。

3.类神经网络实证结果

Cybenko (1989)等指出包含单一隐藏层之类神经网络模式已足够描述任何复杂的非线性系统,因此建构的倒传递类神经网络将只包含单一隐藏层。而由于第一组人口统计变量输入层包含七个神经元,第二组所有变量包含十八个神经元,因此隐藏层中神经元的数目分别选择 14及36进行测试;最后在网络的输出层部份则只包含一个神经元,即房屋贷款户是否违约。在参数的相关设定中,Rumelhart(1986)建议较小的学习率通常会得到较佳的结果,因此学习率将测试 0.002、0.003、0.004、0.005及0.006五种组合。而停止训练准则方面以训练数据的 RMSE值小于或等于0.0001,或最多训练3000次为准,拥有最小测试数据RMSE值的网络结构被认定为最佳结果。

建立类神经网络模式时,第一组采用人口统计变量、第二组采用所有变量作为预测房屋贷款户是否违约的输入层变量,以进行模式的建立,并以房屋贷款户缴息正常或违约作为反应变量;从510笔的房屋贷款户资料中随机抽样所得350笔样本作为训练样本,另外160笔样本数据则作为测试模式用。

利用Qnet(1998) 软件进行分析,测试不同神经元及学习率组合下类神经网络预测模式结果,当节点个数分别为14及36,学习率为0.005时可得到最大的正确判断率以及最小误差。而将样本数据测试测试模式准确度进行比较发现 ,利用类神经网络方法来判断房屋贷款户缴息正常或违约,第一组及第二组分别可得到96.9%及99.4%的整体正确判别率,第二组所有变量所建立的判别方程优于第一组人口统计变数所建立的判别方程。

四、研究结论

1.加入其他变量比单纯利用人口统计变量更能预测房屋贷款户违约的发生

判别分析实证结果部分,仅含人口统计变量的模型,整体分类正确率为75.0%,而加入其他变量后的模型,整体正确率提升为79.4%。在分类误差方面,加入其他变量的模型的型一、型二误差率都较仅含人口统计变量的模型有所改善。

logistic回归实证结果部分,仅含人口统计变量的模型,整体分类正确率为84.4%,而加入其他变量后的模型,整体正确率提升为85.0%。在分类误差方面,加入其他变量的模型降低型二误差率,但型一误差率并未改善。

在类神经网络模式中,仅含人口统计变量的模型,整体分类正确率为96.9%,而加入其他变量后的模型,整体正确率提升为99.4%。在分类误差方面,二模型的型一误差率皆为0,而加入其他变量后的模型的型二误差率有较佳的表现。

由上述实证结果显示,加入其他变量能有效增加房屋贷款户违约预测模式的预测精准度。

2.对于房屋贷款户违约的预测能力比较

以判别分析建立判别房屋贷款户信用状况的分类模式,使用线性判别模式(LDA)进行模式建构,采用月付金占总收入比例、贷款成数及贷款金额作为准则变量(X),可以得到79.4%的正确辨识率。以logistic回归进行判别模式建立时,以贷款成数、月收入及自住或非自住作为准则变量(X),可以得到85%的正确辨识率。而对类神经网络而言,当节点个数为36,学习率为0.0005时可得到99.4%的正确辨识结果。整体而言,类神经网络可以提供较佳的预测结果,对于未来的研究方向,可以考虑利用其他的分类工具,如回归分类树、模糊理论等建构辨识率较高的房屋贷款户分类模型。此外,利用统计或人工智能的工具针对自变量的部分进行重要变量的筛选,以增加类神经网络模式输入层变量决定的理论基础也值得深入探讨。

参考文献:

[1]黄文启:以LOGIT模型研究借款人特性与不动产抵押贷款提前偿还之关系.国立政治大学财务管理学系硕士论文,2002

[2]杨适予:房贷灰色信用风险管理模式之建立与应用.铭传大学管理科学研究所博士论文,2002

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

上一篇:浅谈企业财务管理理论创新 下一篇:股票市场驱动的公司并购定价研究