银行自助设备备付金预测模型探索

时间:2022-07-18 05:03:35

银行自助设备备付金预测模型探索

摘要:本文运用数据挖掘方法,以银行自助设备实际业务中发生的流水数据作为数据来源,试图解决自助设备备付金预测问题。通过分析自助设备影响因素,比较了神经网络、支持向量机等预测算法,给出了自助设备预测模型。

关键词:银行自助设备 备付金 预测模型 探索

0 引言

随着金融系统的不断完善、业务的飞速发展以及信息化的普及,极大拓宽了银行的交易渠道,但因我国支付体系与交易习惯等因素,现金业务在银行业务中仍然占有不可或缺的重要地位,导致了现金流通量极其庞大,而利用自助设备完成的存取款交易,就占现金交易的70%以上。与此同时,金融行业作为经济的核心,信息化水平紧跟潮流步伐,信息技术应用已经深入银行经营管理的各个层面,数据不断积累,使利用数据挖掘技术提升银行经理营管理水平成为可能。如果能够对每台自助设备每天的现金进行预测,就能够及时、准确、安全地向自助设备调拨资金,使设备的现金正好满足营业需要,既保证设备正常对外服务又减少现金占用,达到减少现金管理、提高资金利用率的双重目标。

1 数据挖掘简述

数据挖掘综合利用各种统计分析方法,从海量的数据中自动搜索隐藏于数据本身之中的特殊关系,并展现为用户所理解信息的过程。从商业层面说,数据挖掘就是从海量的商业历史业务数据中,借助查询、分析、转换以及其他数学建模方法,提炼关键性的商业辅助决策数据。它的核心是提供一种机制,将萃取的知识融入到未来的经营管理中。

数据挖掘是数据库知识发现的关键步骤,它主要利用机器学习的学习算法,并融合人工智能的相关原理,实现数据挖掘。什么是机器学习?如果一个程序针对某项任务A,能够根据经验B进行自我完善,并且能够用C对其性能进行测量,那么称此程序为任务A的B学习。机器学习主要有人工神经网络、支持向量机方法等算法。人工神经网络是一种用模拟人类大脑神经结构进行信息处理的数学模型。支持向量机方法(简称SVM)在模型的复杂性和学习能力之间寻求最佳折衷,期望取得最好的推广能力。

2 预测模型

数据挖掘本质上是一个不断反复的过程,其核心步骤被反复执行,直到获得比较满意的结果。当进行特定的数据挖掘任务时,需要针对业务问题选取数据,再对选取的数据进行数据预处理,使其符合模型对数据的输入要求;然后将数据送入模型进行分析。模型建立是一个多次重复的过程,需要仔细判断哪个模型对问题最有效。在“数据处理”阶段,首先要解决的问题是明确业务层面的目标。在“建立模型”阶段,首先选择一个比较贴切的算法,再根据实际模型的类型与特点进行实际的试验与比较,选择最适合于解决问题的方法进行建模;在“数据分析阶段”,主要进行数据转换,使之更好地匹配业务问题和已选择的算法,从而使模型取得较好的效果。

本文的目的在于预测自助设备所需现金,由于自助设备现金流动自身变化规律十分复杂,不仅受环境、日期、星期、节假日、天气等多种因素影响,而且还存在着随机、多变和多样等特性。在诸多因素的共影响下,导致自助设备现金流动呈现一个复杂的、非线形形态,难以用精确的数据模型进行拟合,因此在选择模型时,采用人工神经网络、SVM等非线性映射功能模型为主,传统的统计方法如回归分析、指数平滑等作为辅助方法。预测流程如图1所示:

2.1 数据预处理

数据预处理主要对抽取的源数据进行相关处理并存储,以满足建模要求。处理主要包括数据清洗、指数平滑、坏点处理、相似日分析、规范化等。本文使用的源数据是由自助设备每天交易的流水数据所形成的时间序列。

数据清洗。数据仓库中的数据很容易受到各种因素的干扰。因此在数据挖掘之前规范原始数据、检测调整异常数据,进行必要的数据清洗。

首先完成数据筛选,再进行汇总合并。挑选涉及现金的交易,选取对现金预测有用信息如交易日期、交易金额、存取等;汇总合并核心是按天计算“最大需钞量”:按照“存款为正,取款为负”的原则对流水中每条记录按交易时间先后顺序逐笔轧差,取轧差中负值绝对值最大的轧差值为该设备的最大需钞量。汇总合并后数据示例如表1:

表1 最大需钞量计算规则

坏点处理。因突发性事件或偶然因素,如台风、节假日、超级客户取现等,造成某天的交易量急剧异常增大或降低,与平常日数据存在巨大差异,这些数据称为坏数据或噪声数据,必须进行处理,处理方法一般采用指数平滑或临近类似值。

2.2 自助设备现金影响因素分析

银行网点每天的现金流量受多方面因素影响,总的来说有宏观经济因素和自自客观条件。

宏观经济因素:指国家宏观政策层面对银行业造成的影响,如楼市调控政策、利率市场化、利率变化、济济整体走势、股市的长跌等等。由于此类宏观因素本身具有不确定性、并且常常不是非常清晰,因此对业务的影响处于一种模糊状态。而自助设备现金预测不是长期趋势预测、属于短期预测,短期预测受宏观因素的影响非常小,并且现金流量的规律主要隐藏于大量历史数据中,与宏观经济因素关系不明显,因此预测的关键是如何从海量的、杂乱的历史数据中找出其变化规律,所以预测时暂时不考虑宏观经济因素。

客观因素的影响,主要有网点类别、网点所处的位置、日期(工作日与节假日的区别)、特殊日子(如养老金发放时间)、特殊事件的影响等等。一般来说,市县中心网点、城市网点开办的业务种类比较多,吸引的客户相对较多,业务量也会相应增大,现金收支量也会相应加大;另一方面,网点所处的地理环境,如城市、农村、不同地段、繁华程度等等,对业务量具有非常大的影响:在公司、企业、人流密集的区域,业务量明显增大;而边远郊区、农村地区的业务量就会小很多。节假日由于客户分流、部分业务停办等原因,现金业务会有所减少;而节假日前后的数天一般会出现业务高峰期,现金业务会明显增大。基于以上因素,在已有数据的基础上,增加网点类别、节假日与工作日标识等因素。

2.3 算法比较

建立模型时,首先将经过预处理的数据分为训练集与测试集两个数据集。一般来说,选取数据总量的■-■作为测试集,选取■-■作为训练集。用训练集样本对模型进行训练,训练完成后,用测试集样本作为模型的输出进行测试,验证模型的准确性。

2.3.1 衡量指标

为了衡量模型预测结果的好坏,选定了几个衡量指标。设αt是实际输出值,■表示平均值,ci表示预测值,衡量指标如下:

相关系数:用数值衡量实际输出值与预测值之间的相关性,其值越大说明模型性能越好,

平均平方根误差:反映实际输出值与预测值之间的差距,

平均绝对误差:表示实际输出值与预测值之差的平均值,

相对平方根误差:将实际输出值与预测值之差大于输出值与平均值之差的情况进行放大,

绝对误差:表示实际输出值与预测值之差的总和与实际输出值差值总和的比值,

平均相对误差:表示实际输出值与绝对误差之比,

■■■

2.3.2 不同学习方法比较

选用1-邻近法、SVM、神经网络等三种机器学习方法进行预测,以1-邻近法作为参照标杆,从预测准确度、处理速度、推广能力等方面比较不同方法的预测效果。

预测准确度:神经网络预测效果最为理想,SVM次之,1-邻近法的预测效果最差。实验数据见表2:

表2 不同算法预测准确度比较

处理速度:以一个训练集130个样本,测试集302个样本的数据集为例,神经网络比较慢,但还在可以接受的范围;SVM速度效果比较理想。各方法运算速度如下:

1-NN:0.02 秒,时间可以忽略不计;

神经网络(迭代600次):15.46秒,可以接受;

SVM:2.6秒,效果较好。

推广能力:选择一个432个样本数据集按不同比例进行拆分,分别进行训练与测试,对比测试结果。对比结果表明,在本案例中神经网络推广能力要强于1-NN与SVM,实验数据见表3。

2.4 建模

经过以上分析,确定以自助设备每天最大需钞量为样本数据,以日期、星期、网点类别为影响因素,采用神经网络算法,能够对自助设备备付金进行预测。

3 结束语

本文论以自助设备付金预测为切入点,将数据挖掘引于银行经营管理实际,建立了自助设备备付金预测模型,取得了较好应用效果。

银行的备付金包含多方面内容,除网点现金外,还包括柜面现金、金库现金、超额备付金(非现金)等,只有将影响备付金的所有因素全部进行考虑,降低银行整体备付金,才能使节省的资金真正产生效益,因此下一步打算对全省网点柜面、金库以及超额备付建立预测模型,并建立备付金预测系统,使之涵盖网点、金库、超额备付等银行备付金的多个环节。

参考文献:

[1]王凯平.基于函数型数据分析的数据挖掘功能研究[J].统计与决策,2011(04):162-164.

[2]苗永荟,孙英英.数据分析与挖掘在金融业务发展中的应用研究[J].邮政研究,2013(05):24-27.

[3]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(01):148-171.

[4]周江,王伟平,孟丹,等.面向大数据分析的分布式文件系统关键技术[J].计算机研究与发展,2014(02):148-160.

[5]滕少华,洪嘉铭,张巍.序列模式挖掘在警用车辆维修数据分析中的研究与应用[J].江西师范大学学报:自然科学版,2013(04):45-49.

[6]郭均鹏,宁静,史志奇.基于区间型符号数据的群组推荐算法研究[J].计算机应用研究,2013(01):88-91.

[7]张礼,刘学军.一种基于Gamma模型的RNA-seq数据分析方法[J].南京大学学报:自然科学版,2013(04):70-79.

[8]J.Han,G Dong, Y.Yin,Efficient mining of partial periodic patterns in time series database.In Proc Int Conf Data Engineering (ICDE'99),1999:123-135.

[9]S.Singh and P.McAtackney,Dynamic Time-Series Forecasting Using Local Approxi mation. In Proceedings of the IEEE Tenth International Conference on Tools with Artificial Intelligence,1998(03):392-399.

作者简介:

何昆(1974-),男,湖北天门人,系统分析师,研究方向:数据分析。

上一篇:干旱风沙地区预制箱梁节水养护技术 下一篇:餐饮行业融资管理