电子商务中第三方支付平台欺诈风险识别研究

时间:2022-07-28 11:11:19

电子商务中第三方支付平台欺诈风险识别研究

摘要:随着电子商务的飞速发展,第三方支付平台欺诈风险呈现递增趋势。本文采用Logistic回归构建第三方支付的欺诈风险识别模型,并结合Kolmogorov-Smirnov统计量来查找判断欺诈交易和正常交易的分割点,对欺诈风险进行量化估计。实证研究表明本文所构建模型比较稳定且预测比较准确,可大大提高风险识别能力,对第三方支付机构的风险管理具有重要作用。

关键词:第三方支付平台;欺诈风险;Logistic回归模型;Kolmogorov-Smirnov统计量

中图分类号:F830.33 文献标识码:A

一、引言

如今,第三方支付平台已经成为网上支付以及电子商务过程中一个不可或缺的重要组成部分。易观国际的统计数据显示,2010年第三方在线支付市场交易规模进一步大幅增长,达到10 858亿元(见图1)。然而,随着我国第三方支付行业的不断发展和网络购物市场消费群体的不断扩大,网络交易中存在的风险防控短板问题逐渐凸显,网络欺诈问题给蓬勃发展的第三方支付市场带来了严重冲击。如何建立有效机制来防范网络诈骗行为的发生对整个网购行业包括第三方支付企业至关重要。

本文尝试将已经发展的较为成熟的信用卡交易欺诈风险评分模型理论应用到第三方支付交易欺诈风险识别上去,以国外某第三方支付平台实时交易数据为样本,运用Logistic回归模型对样本的欺诈风险进行量化评估。同时,本文将原始样本分为训练样本和测试样本,在运用训练样本构建模型的基础上,再利用测试样本对模型的准确性和稳定性进行检验。

二、欺诈风险识别理论和模型概述

(一) 欺诈风险识别理论

国内外对欺诈风险识别的研究主要集中在公司财务欺诈风险、商业银行欺诈风险、保险欺诈风险、信用证欺诈风险等领域,其中以商业银行欺诈中的信用卡欺诈风险识别研究较为成熟。在实际工作中,第三方支付欺诈中的很大一部分是由信用卡欺诈导致的,并且欺诈犯在第三方支付平台和信用卡领域的欺诈手段大部分都是类似的,因而本文认为,适用于信用卡欺诈风险识别的方法同样能够捕捉第三方支付平台中的欺诈。

在信用卡欺诈风险识别中,主要运用到神经网络、案例推理法、决策树、支持向量机、Logistic回归等方法。在实际业务操作中,银行、信用卡公司、个人消费信贷公司、保险公司等都采用评分模型来进行风险管理。评分模型运用数据挖掘技术和统计分析方法,通过对消费者的人口特征、信用历史记录、行为记录、交易记录等大量数据进行系统地分析,挖掘数据中蕴含的行为模式、信用特征,捕捉历史信息和未来信用表现之间的关系,发展出预测性的模型,以一个评分来综合评估消费者未来的某种信用表现。通常建立预测的模型时,常使用Logistic回归、决策树、线性判断函数等方法。Srinivisan等(1987)最先使用Logistic回归构建公司信用评级模型,得到较好的效果;Donald等(1996)研究抵押贷款违约分析时,利用Logistic回归分析、Probit分析及区别分析三种统计方法,发现以Logistic回归分析的群组分类正确率最高;Henley(1996)利用线性判别函数,依据各个变量的权重给定信用分数来筛选出重要变量,但是该方法无法处理解释变量之间共线性问题,应用层面有极大限制。

国内对欺诈风险的识别集中在商业银行领域,特别是信用卡欺诈的定量分析方面。本文在知网中以“信用卡、欺诈风险”为关键字进行了文献搜索,共发现有137篇相关文献(见表1),研究呈现递增趋势。其中比较典型的有:柳炳祥等(2003)分别基于粗集、距离、粗集神经网络以及案例推理分析欺诈风险;陆静等(2008)采用了贝叶斯网络方法,通过构建由关键风险指标和关键风险诱因组成的欺诈风险拓扑结构,分析了各类欺诈风险指标对欺诈风险的作用形式,在对各级指标节点赋值的基础上,运用贝叶斯网络方法测算了各类指标对欺诈风险的影响程度,从而建立起欺诈风险的预警系统。

从现有文献可以看出,目前关于第三方支付的欺诈风险识别研究很少,这一方面是由于第三方支付行业还是新兴的行业,各项研究还在摸索阶段,另一方面是因为知识产权及商业机密的原因。由于第三方支付与商业银行特别是信用卡欺诈是有一定区别的,因此本文对于第三方支付行业欺诈风险识别的研究具有现实价值。

(二)Logistic回归模型

本文所研究的因变量欺诈与否是二元的变量,而Logistic回归模型是解决这类问题时所常用的方法。一直以来,在研究欺诈问题时,都使用二元选择模型。例如,在保险欺诈中使用该模型来预测一个欺诈索赔的可能性大小。欺诈索赔本质上与实际生活中的医疗和流行病学等问题是相似的。

Logistic回归模型是非线性分类的统计方法,其特性在于利用Logistic概率函数转换,使反应变量转换为介于0到1之间的概率值,其中定义因变量Y为1(代表事件发生)和0(代表事件不发生)。若假设有n个独立的解释变量,令其向量定义为X=(x1,x2,…,xn),则反应变量的条件概率定义为P(Y=1|x)=π(x),表示发生事件之概率:

经过Logit的转换后,g(x)是参数的线性组合,范围是从(-∞,∞),与解释变量X呈线性关系并具有单调递增、递减特性,能处理P(Y=1|x)=π(x)发生事件之概率范围限制的问题。

(三)Kolmogorov-Smirnov统计量

Logistic模型作为风险度量模型,可以将输入样本分为欺诈交易和非欺诈交易两类,即模型可以通过将计算出来的每笔交易的预期欺诈风险概率与设定的分割点相比较,将欺诈概率大于分割点的交易归为欺诈交易,将欺诈概率小于分割点的交易归为非欺诈交易。模型根据分割点对网络支付交易进行分类可能出现两类错误,分别把这两类错误称为第一类错误和第二类错误。其中,第一类错误是指将欺诈交易误判为非欺诈交易;第二类错误是指将非欺诈交易误判为欺诈交易。在进行欺诈风险分析时两类错误都会导致机构发生损失,但由于交易的特点,两类错误所导致的损失是显著不同的。

具体来说,第一类错误将可能是欺诈的交易误判为非欺诈交易,会导致商户或者第三方支付平台发生损失,从而打击了商户对第三方支付平台的信任和积极性。现在很多商户都跟第三方支付平台签订了“保障协议”(通过定期缴纳保障金可以将欺诈风险转移给第三方支付平台,即欺诈交易发生的损失由第三方支付企业承担),因此犯这类错误的成本是非常高的,是第三方支付平台要极力避免的错误。第二类错误是将非欺诈交易误判为欺诈交易,对第三方支付平台来说会导致它冻结资信状况良好的用户账号,丧失了一次交易盈利机会,更重要的是,这会打击消费者对第三方支付平台的信心。如果这种情况发生的次数较多,会严重影响第三方支付企业未来的长远发展。所以,第三方支付平台在严格控制直接拒绝网络交易的授权的同时,可以对有可能发生欺诈的交易进行反复的资料核实或者电话审查,尽量控制犯第一类错误的概率,适当减少犯第二类错误的概率。

根据以上的分析可以看出,分割点的选择对Logistic回归模型犯第一类错误和第二类错误的概率有重要的影响。分割点如果设定的大会增加犯第一类错误的概率;分割点若设定的小会增加犯第二类错误的概率。两类错误存在着此消彼长的关系。本文所采用的方法是通过计算Kolmogorov-Smirnov统计量来查找模型的分割点,其理论来源于两样本Kolmogorov-Smirnov检验。通常Kolmogorov-Smirnov检验用来判定两样本的差异大小,其优点在于无需知道样本数据的分布情况。计算得到的K-S统计量度量的是正常交易概率值的分布函数与欺诈交易概率值的分布函数之间距离的大小。用公式表示,即:

根据得到的识别模型对总体中的每个记录给出了一个概率值,然后运用K-S统计量来度量正常交易概率值的分布函数与欺诈交易概率值的分布函数之间距离的大小。K-S统计量越大,意味着正常交易与欺诈交易的差异越大。为了计算的简便,本文将训练样本平均分成10个区间,计算每个区间累计欺诈交易个数与正常交易个数。K-S统计量取值最大的那个区间的最大概率值就是分割点。

三、实证研究

(一)变量选取和数据获取

根据以往的研究发现,在选取变量用于建立识别欺诈风险的模型时应当遵循两个原则:选择预测力强的变量和选择稳健的变量。本文在基于以上两个原则的基础上,综合考虑针对第三方支付平台欺诈风险的各种影响因素,同时考虑部分数据的可得性,从第三方支付平台交易系统中广泛选取了48个定量指标作为初选指标进行分析,所选指标尽可能全面反映第三方支付交易的各个方面,所选指标及其代表字母见表2。通过这两个原则选择到的这些变量可以捕捉到每个用户交易的历史行为模式、当前交易行为与历史行为模式的差异、交易发生的速率和动态。把这些错综复杂的信息以Logistic回归模型综合起来,能够有效地预测欺诈的概率大小。

预测变量的选择对欺诈风险识别模型的准确性有着决定性的影响,而预测变量选择的关键在于如何判断一个指标含有的预测某类事件发生与否的信息的多少,因此对预测变量的选择问题进行研究具有很大的实际应用价值。若是将现有的所有变量都拿来建模,往往会造成模型过度复杂,或是产生过度学习的情况。本文通过以下几个步骤筛选变量:首先通过检查解释变量间的相关系数、解释变量与因变量的相关程度、各初选指标的组均值的均等性检验来去掉一些预测效果较差的指标变量。然后通过余下指标变量的WOE(Weight Of Evidence)报告值得到每个指标的IV(Information Value),如果IV

同时,本文从2010年12月-2011年1月的第三方支付平台数据集中抽取4 600条交易记录作为样本,按照7:3的比例随机将总样本分为训练样本和测试样本。在训练样本中,共有3 220条记录,其中欺诈交易共有277条,大约占9%;在测试样本中,共有1 380条记录,其中欺诈交易共有109条,大约占8%。在利用训练样本构建预测模型后,分别检验模型对训练样本和测试样本的预测准确率。

在对数据进行建模之前,分两种情况对数据进行预处理:第一部分对数据中的缺省值进行处理,对缺省的数据赋予0或者其它数值来替代;第二部分就是对数据中的异常值进行处理,异常值的存在会使得最终的模型结果产生偏移。

(二) Logistic回归模型

本文的样本并不是完全随机抽取的,因为在实际实时交易中,欺诈交易的比例并不是很高,大约占所有交易量的0.5%左右,故为了建模的准确性,本文在样本中放入了较多的欺诈交易,比例大约为9%,大约为18倍左右。在最后的建模时,本文要依据这个比例来调整最终真实的欺诈概率。这个调整最终仅仅会影响模型的常数项,对于参数估计系数并没有改变。

本文用混合逐步选择法做Logistic回归,选择显著性水平为0.05(每一步剔除和选入变量的检验水平),利用SAS软件完成Logistic回归。逐步回归的结果见表3。

同时,为了检验模型对其它交易的适用性,本文同样使用测试样本进行检验,通过建立的Logistic模型计算出每个测试样本的预测概率,仍以0.005为分割点进行检验,得到测试样本的判别结果见表9。

通过进行训练样本检验和测试样本检验可以看出,模型对训练样本和测试样本的预测准确度都超过了60%,基本一致,模型的预测能力较强,可以用此模型对新的样本第三方支付交易是否是欺诈交易做出精度比较高的判断。

四、结论

本文尝试将已经发展较为成熟的信用卡交易欺诈风险评分模型中的部分方法应用到第三方支付交易欺诈风险识别上去,选取了构建模型所使用的风险指标,对样本的欺诈风险进行了量化评估,并用训练样本和测试样本对模型的准确性和稳定性进行了检验。检验结果表明模型预测准确性高,而且稳定可靠,从而为第三方支付企业风险管理与决策开辟了一个新的视角。实证分析结果表明,账户中添加的银行卡数目(num_ach)、用户添加的手机号码个数(s_phone_n)、付款人使用信用卡交易失败的比例(s_cc_pct_failed_auth)、信用卡银行识别号码被拒的比例(cc_bin_dec_decline_rate)、添加银行卡的IP地址吻合次数(ip_bank_add_match)、之前是否用过银行卡(prepaid_bank)对识别交易欺诈风险有显著影响。账户中银行卡数目越多,用户在第三方支付平台账号中添加的手机号码个数越多,付款人使用信用卡交易失败的比例越高,信用卡银行识别号码(信用卡号码前六位数字)被银行列为拒绝付款的比例越高,添加银行卡时的IP地址变换次数越多,或者之前从未使用过银行卡进行支付,表明该笔交易的欺诈风险越高。

如今,电子支付应用已深度渗透到诸如网购、机旅、转账、生活缴费、基金、债券、炒股认购等日常生活的各个领域。在此背景下,可以预见的是短期内更多诸如网络钓鱼或是其它的欺诈手段还将不断涌现,这对于即将承担起更多支付职能的第三方支付企业而言可谓任重而道远。因此,对于第三方支付企业,必须考虑多方面因素建立一套实时的反欺诈系统,当一个新交易产生时,交易将经过此系统的分析,最后做出决策是否接受此交易。根据本文得到的结论,我们建议:第三方支付机构应该强化日常账户管理、密切监察高风险商户;政府部门则应重点加快建立第三方支付产业相关法律法规,规范和指引第三方支付平台的经营行为,完善社会征信体系。

参考文献:

[1] Srinivasan V, Kim Y H. Credit granting: A comparative analysis of classification procedures[J].The Journal of Finance,1987,42(3): 665-681.

[2] Donald E R, Kartono L, Richard H. Borrower risk signaling using loan-to-value ratios[J].Journal of Real Estate Research, 1996,11(1):71-86.

[3] Henley W E, Hand D J. A k-nearest-neighbour classifier for assessing consumer credit risk[J].The Statistician, 1996:77-95.

[4] 柳炳祥, 盛昭瀚. 一种基于距离的欺诈风险分析方法[J].中国管理科学, 2003,11(1):38-41.

[5] 柳炳祥, 盛昭瀚. 一种基于案例推理的欺诈分析方法[J].控制与决策, 2003,18(4):494-497.

[6] 陆静, 唐小我. 基于贝叶斯网络的操作风险预警机制研究[J].管理工程学报,2008(4).

[7] Kwan I S Y, Fong J, Wong H K. An e-customer behavior model with online analytical mining for internet marketing planning[J].Decision Support Systems, 2005, 41(1):189-204.

[8] Artís M, Ayuso M, Guillén M. Detection of automobile insurance fraud with discrete choice models and misclassified claims[J].Journal of Risk and Insurance, 2002, 69(3):325-340.

[9] Magder L S, Hughes J P. Logistic regression when the outcome is measured with uncertainty[J].American Journal of Epidemiology, 1997,146(2):195-203.

Research on the Fraud Risk Identification Model of Third-party

Payment Platform on E-commerce

SHAO Jian-li1, SONG Ning1,ZHANG Yan2

(1.School of Statistics and Management, Shanghai University of Finance and Economics, Shanghai

200433, China; 2.Department of Finance, Qingpu Branch of SRCB, Shanghai 201799, China)

Abstract:Along with the rapid development of electronic commerce, the fraud risk of third-party payment platform on e-commerce presents the increasing trend. This paper constructs a scientific fraud risk identification model by Logistic Regression, and searches and determines the split point fraud transactions and normal transactions by Kolmogorov-Smirnov statistics, in order to estimate the fraud risk quantitatively. The results show that the model is stable and has high forecast accuracy, which can be used to identify the fraud risk of third-party payment.

Key words:third-party payment platform; fraud risk; Logistic Regression; Kolmogorov-Smirnov statistics

上一篇:我国人均收入与服务业发展互动研究 下一篇:脑梗死患者脑梗死后出血的多种因素研究进展