基于logistic回归的P2P借贷违约率预测模型的构建研究

时间:2022-07-15 10:17:39

基于logistic回归的P2P借贷违约率预测模型的构建研究

【摘要】由于当前国内征信体系的不完善,互联网信息不对称的现象严重,导致P2P借贷市场发生违约风险的可能性比较大。投资人无法根据平台公布的信息正确判断其面临的违约风险。因此,本文通过以Logistic回归模型为基础构建适用于P2P借贷领域的违约率预测模型,对拍拍贷4970笔借款项目进行实证分析。实证结果表明,构建的预测模型对违约率的预测有79%的正确率,并且预测违约率符合正态分布。

【关键词】P2P借贷;违约风险;违约率预测;logistic模型

一、引言

目前,国内P2P借贷处于征信体系不完善、互联网信息不对称现象严重的大环境下,造成投资人无法真正有效的运用互联网大数据掌握借款人真实的信用状况及违约风险,以便作出正确的投资策略。

如何对P2P借贷违约率预测模型进行构建,这个问题国内外学者间产生了很大的关注度。在对违约率预测模型进行研究前,首先需要对P2P借款造成违约可能的影响因素进行相关研究。如Freedman & Jin(2008),Barasinska(2009)、Mingfeng Lin et al.(2012)和陈建中(2013)、杨立(2014)的研究就分别从个人基本信息、交易行为、社会资本等不同的视角对借款人违约影响因素进行了研究分析。在此研究的基础上,Vedala & Kumar(2012)使用一个多重关系的贝叶斯分类方法来预测借款人的违约概率,高见(2014)运用核权重的方法对借款的违约概率进行了预测,并且完善了贷款组合的风险评估模型。经过对相关文献的学习与梳理,本文选取对违约率影响比较显著的因素作为违约率预测模型的基础变量,进行进一步的违约率预测模型的实证研究。

本文以拍拍贷作为违约率预测模型的研究对象,主要是由于拍拍贷作为中国成立最早的P2P借贷平台,积累了大量的用户量及信用信息。另外,拍拍贷作为中国唯一的纯线上中介平台,始终注重信用数据的采集和审核,注重引入微博、亲友信息等社交资本对平台运营进行不断创新。并且始终将其信用信息公开,为研究提供了很多便利。因此,拍拍贷是一个理想的数据分析与实证验证的平台。

二、研究模型

本节针对如何将平台的公布信息转化为更为直观、准确的预测违约率,构建一个适用于P2P借贷的违约率预测模型来解决这个问题。

首先,提出违约率预测模型的基本假设。

假设1:违约率是在[0,1]的区间内,且分布具有相连有序的规律。

假设2:在交易过程中对违约行为有影响的因素,同样对违约率产生作用。

假设3:从整体上看,违约率是呈正态分布的规律来表现的。

假设1的合理性在于:a.违约率是一个概率,所有的概率都是介于0和1之间;b.违约率应该是一个可以量化出来的指标,除此以外还要满足是定比的尺寸,每一个不同的违约率是具有比较意义的。假设2的合理性显而易见。如果样本的大小是趋于无限值的时候,那么第三个假定也有可行性的。

其次,构建P2P借贷违约率的预测模型。

三、样本数据与变量选择

本研究主要采用爬虫软件的编程采集拍拍贷P2P借贷平台的数据。数据采集从2014年1月1日至2014年8月20日,获得共计11000笔借款信息。对于同一个ID,需要采集两次信息,第一次是用户借款时的信息,包括借款基本信息、借款信用等级、审核信息等;第二次是采集该笔借款的状况信息,包括是否获得贷款和是否违约。由于每笔借款需要经历完借款期限才能判别是否违约,并且去除数据缺失的部分,最终保留下来的借款为8454笔。对于这8454笔借款,为了排除单个借款人信息重复的干扰,仅保留最新的一笔借款,最终保留借款为4970笔。

本文主要是对为了得出拍拍贷的预测违约率,因此将借款人的违约状态作为被解释变量。借款人违约记为1,不违约记为0。

解释变量是基于国内外P2P借贷违约影响因素的研究与国内P2P借贷平台的实际状况进行选取的,主要从借款者特征、借款特征、信用特征及社会资本四个维度对违约率情况进行预测。其中,选择社会资本进入回归模型,主要是考虑拍拍贷的运作模型的在国内的独特性。其通过微博认证、亲友身份证认证等举措将借款者的社交网络纳入了对借款者信用的考察。并且根据国内的相关研究结果表明,社交资本与违约率有显著的负相关关系。因此,本文将社会资本纳入了考察范围。另外,本文在充分参考相关研究成果的基础上,去除了具体可能的共线变量后,得到最终的解释变量的体系。如表1所示。

四、logistic回归实证分析

研究利用SPSS 19.对数据进行了logistic模型分析,具体的实证结果如下。

模型1的R方值为32%,表明模型1的整体拟合程度较好,模型中的解释变量可以较好地对被解释变量进行解释。从SPSS输出的实证结果得出,借款金额、借款利率、性别、每月还款金额在1%水平下对借款人违约的概率有正相关的影响,而教育认证、婚姻状况、住房状况、注册时间、借出信用分、微博认证及亲友身份证与借款人违约概率是负相关的。

此实证结果中,与之前的相关研究有所不同之处:(1)借款期限对违约并没有显著的影响。这主要跟拍拍贷的业务逻辑有关,拍拍贷借款基本属于小额信用贷款,以按月还本付息为还款方式。(2)是否购车在违约率中并没有显著差异,可能是因为拍拍贷中仅以汽车作为一种财富信号,而并没有对汽车进行抵押或者质押处理有很大的关系。(3)注册时间与借出信用分对违约呈负相关的关系说明拍拍贷的老客户非常看重在平台积累的信用数据,并且在自有资金闲置的同时,也会在平台进行适量的投资。(4)微博认证与亲友身份证认证能够有效减少违约风险。

进而,将(3)代入P=e-z1+e-z公式(4)得到违约率预测模型。最后,将原始数据代入公式(4)中,运用Excel进行运算,可以得到每笔借款的预测违约率,从最终P值的数据结果得出,出现有1030个异常值,违约率预测模型有79%的预测准确率,将异常值去掉,得到违约率预测分布图。

从图1中可以看出,预测违约率呈稍微向左偏的分布,这说投资人会根据对借款人的预期违约率进行投资决策,如果投资人认为其违约概率较高,投资行为就会更加的谨慎。为了降低整体投资的风险,投资人就会减少对具有高预测违约率的投资笔数及单笔的投资额度。由于本文在拍拍贷采取的样本数据容量相对较大,因此预测违约率的分布接近假设的正态分布(见图1)。

五、结论

本文基于logistic模型构建预测违约率模型的目的主要是为投资者提供一种更深层次挖掘借款项目违约特征的手段与工具,为投资人在平台更好的判断借款人的信用状况提供更深层次的分析方法。并且投资者的投资决策以违约率预测模型得出的违约概率作为判断依据时,可以加强p2p网络借贷平台与资金借入者对自身违约风险管理的紧迫感。

另外,P2P借贷平台站在投资人的角度,为投资人正确判断借款项目的违约状况提供更为有利的借贷环境,加强平台自身对违约风险管理与借贷审核技术的能力才能有更好的发展前景。因此,P2P借贷平台应该完善平台信息公开的透明度,为投资人做出正确决策创造良好的信用环境。同时,P2P借贷平台要加强贷款违约率预测模型的准确性,利用平台大数据的优势为投资人提供更多的违约特征以供投资人参考。

参考文献:

[1]Berger,Allen N.;Udell,Gregory F. A more complete conceptual framework for SME finance.Journal of Banking & Finance,2006,30.11:29452966

[2]Barasinska,N.The Role of Gender in Lending Business:Evidence from an Online Market for PeertoPeer Lending.The New York Times. Berlin,2009

[3]Freedman,S.,Jin,G.Z. Do Social Networks Solve Information Problems for PeertoPeer Lending?Evidence from Prosper. Com. Working Paper,2008

[4]Mingfeng Lin,Nagpurnanand R. Prabhala,and Siva Viswanathan. Judging Borrowers by the Company They Keep:Friendship Networks and Information Asymmetry in Online PeertoPeer Lending[J]. Management Science mnsc.1120.1560;published online before print September 4,2012

[5]陈建中,宁欣.P2P网络借贷中个人信息对借贷成功率影响的实证研究――以人人贷为例[J].财务与金融,2013,06:1317

[6]高见.基于核的人人贷的信贷风险建模[J].信息与电脑(理论版),2013,01:78

[7]杨立.基于基于社交网络的P2P借贷信用风险管理研究.[D].中南大学,2014

上一篇:城市商业银行发展现状研究 下一篇:人口红利外溢与经济增长