基于数据仓库的银行个人信贷系统的分析与设计

时间:2022-10-07 05:36:17

基于数据仓库的银行个人信贷系统的分析与设计

摘要:近年来个人信贷在银行贷款中比例不断提高,但不良率也有攀升的趋势,强化个人信贷信用管理成为银行急需解决的问题。本文提出了利用数据仓库技术整合银行历史数据,构建了个人信贷数据仓库的整体架构,并对其数据的ETL、逻辑设计、安全性进行了探讨,为银行的个人信贷业务数据仓库的设计提供了实现方法。

关键词:银行个人信贷;数据仓库;主题;数据整合

文章编号:1003-4625(2011)01-0071-04 中图分类号:F830.589 文献标识码:A

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。信息社会带来了新的契机,构建成功的数据仓库已经成为许多行业的迫切需要。随着市场经济的发展,人们的消费观念发生了很大的变化,来自家庭和个人的融资需求急剧增加,个人贷款业务日渐升温,个人贷款消费群体不断扩大。为了满足个人的资金需求,我国商业银行开办了个人消费信贷业务。由于客户数量庞大,个人信贷已经成为银行利润新的增长点。但我国银行个人信贷业务仍存在不少问题,主要表现在:信贷管理机制尚未健全,难以确认消费信贷申请者的真实收入,常有发放出去的贷款难以收回;对个人信用档案的建立缺乏足够认识且技术落后,尤其是信贷管理数据库的技术落后;个人的信用评估机制尚未健全,缺乏对个人信用相关数据的分析,而通过让申请者提供抵押担保等方式,在审核上几番周折,业务效率低下。

在我国银行个人信贷业务发展的几年中,各业务系统已储存了大量的客户资料。若能建立起有效的数据管理机制,利用这些数据进行客户关系管理,不仅能使银行处于主动地位来进行有效的风险防范,也将极大提高个人信贷的业务效率。基于数据仓库技术构建了银行个人信贷系统(也称个人信贷数据仓库),可以充分利用银行已有数据为信贷业务提供决策支持。

一、个人信贷数据仓库的总体设计

需求是数据仓库的价值体现,基础数据的准备必须是从个人信贷业务需要解决的具体问题出发。根据不同的应用规模和应用要求,可以组建全局数据仓库和数据集市,形成有主有从的数据仓库目标系统,提高数据仓库的使用效率。

银行个人信贷数据仓库的数据来源主要是综合业务系统数据、信贷管理系统数据和外部数据。根据银行个人信贷业务的功能需求,提出了银行信贷决策支持系统的方案框架是一个具有三层体系结构的解决方案,系统的底层为数据仓库服务器端,中间层是OLAP服务器(决策支持分析引擎),前端是集成化的数据分析展现工具。数据仓库服务器使用后端工具和实用程序从操作数据库和外部信息源加载和刷新数据,主要功能包括数据采集、数据抽取转换以及数据的存储功能。本系统采用Microso SQLServer 2005建立数据仓库服务器,该工具提供了若干管理和开发组件,如关系数据库、数据ETL服务(SSIS)、联机分析工具、元数据服务和复制工具等。OLAP服务器是数据仓库和前端分析工具的桥梁,对需要分析的数据进行有效地集成,按多维模式予以组织,以便进行多角度、多层次的分析并传送给前端的分析工具显示。

二、个人信贷数据仓库的ETL实现

数据仓库的ETL系统是数据仓库中数据整理阶段的一个主要工具,它负责将分布的、异构数据源中数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL占用整个数据仓库设计工作量的60%-70%。

(一)数据抽取方法

数据抽取是捕获数据源的过程,主要方法有完全刷新和增量更新。数据的抽取需要既能满足决策的需要,又不影响业务系统的性能,所以进行数据提取时应制定相应的策略。通常情况下,流水型增长且数据量大的数据适合采用增量更新的方式;经常变化更新的数据适合采用完全刷新的方式;对于两者结合的数据,优先考虑增量更新的方式,其次考虑完全刷新的方式。对于提取周期要考虑实际业务的需要和提取进行的系统代价,在可能的情况下,尽量缩短提取周期。

(二)数据清洗与转换方法

因数据仓库数据取自不同数据库,需要经过清洗和转换才能进入数据仓库。在不同的数据库中对相对意义的字段可能有不同的值来表示,或者需要对数据库中的源表计算才能进入数据仓库的目标表。典型的数据清洗与转换方法有如下几种:

1.类型转换。在信贷管理系统中对客户性别采用0和1表示男与女,而在客户信息管理系统中采用M和F表示男与女。在本系统中将全部转换成M和F表示方法。

2.串操作。在客户资料目标表中客户地址是以国家、省市、区县、街道(镇)等表示方法,在客户信息目标表中就集成一个地址列。

3.数学函数。在客户分户清理过程中,需要对贷款分近期、远期等分类进行统计,在清理过程中直接对数据源数据进行统计获得。

4.参照完整性。在贷款数据加载中,首先要对客户信息目标表进行客户号完整性检查,以确保该客户已经存在域数据仓库中。

5.键字翻译。各种数据源数据都具有其业务处理过程中的关键字,需要转换成数据仓库的关键字,以适应时间维等多维数据处理的需要。

6.聚类运算。数据仓库中大量聚集和概况的数据都可以在源数据向数据仓库清洗过程中计算,可以减少加载中程序的特别处理。

(三)个人信贷数据仓库ETL模型建立过程

本系统中采用的ETL工具是Microsoh SSIS工具。SSIS通过包来管理复杂的数据整合任务,通过控制流、数据流和事件处理程序等组件来处理这些任务。控制流由容器、任务和优先约束等控制流元素构成。容器提供包中的结构并给任务提供服务,任务在包中提供功能,优先约束将容器和任务连接成一个控制流。数据流由提取数据的源、修改和聚合的转换、加载数据的目标,以及将数据流组件的输出和输入连接为数据流的路径等元素构成。

SSIS的数据流任务封装数据流引擎。数据流引擎提供将数据从源移动到目标的内存中的缓冲区,并调用从文件和关系数据库中提取的数据的源。数据源系统是Sql server2005数据库,数据处理全部过程在SSIS平台上完成,处理的结果最终导入到Sqlsewer2005平台的数据仓库中。

这里通过一个案例说明数据仓库ETL的建立过程。银行总行在甲、乙、丙三个城市建立了分行机构,因此在个人信贷数据仓库中需要加入这三个分行的客户信息。三个分行的建立时间都不长,积累的数据量不多,首先把分行的业务数据库系统中的相关数据汇总到一个文本文件中,然后按分行建立三个表,通过SSIS的ETL功能把这些数据按照分行号(Branth_NO)将其分类,最后把数据导入新表中。图2和图3分别为SSIS处理过程的控制流图和数据流图。

三、数据仓库建模

(一)确定主题域及其内容

数据仓库中,数据是面向主题进行组织的。“主题”是在较高层次上将银行信息源中的数据综合、归类并分析利用的抽象。在逻辑意义上,主题对应于银行业务中某一宏观分析领域所涉及的分析对象。通过对个人信贷业务管理的需求分析,可确定以下主题:客户信用度分析、贷款收回情况分析、不良贷款分析。

1.客户信用度分析

客户信用度分析主要是对客户的信用情况进行量化评级分析,对信用进行评级就是对客户的还款能力和还款意愿进行分级评价。对客户的信用分析要分为两种类型,一种是对没有任何信用记录的新用户进行分析,对于这类客户,贷前只能根据其背景资料进行分析(见表1),但如果其信用评价合格,我们可以对其还贷过程进行跟踪分析(见表2),评判其信用等级,建立贷后信用档案。另一种是对曾经有过借贷记录的老客户的分析,这时就可以将其借贷历史记录和背景资料结合起来进行分析,得到全面的信用评分。

客户的信用度需要根据指标体系进行数学计算才能得到。假设客户基本信息评分值分别为x1,x2,x3,……,x7,权重分别为W1,W2,W3,……,W7,客户还贷信息评分值分别为y1,y2,y3,y4,权重分别为M1,M2,M3,M4。其中权重=分指标的权重值,各指标总权重值。由于新客户没有过贷款记录,仅需按照客户基本信息评分表打分,新客户信用评分=∑xi×wi,而对老客户则需要根据两张评分表打分,再对两张评分表的得分进行加权计算(两张表的权重分别是ui和vi),老客户的信用评分=[(∑xi×Wi)×ui+(∑yi×Mi)×vi]/10。

客户信用度分析根据客户提供的资料,结合客户使用其他金融产品的信息,综合评价个人的信用度,对于不同信用度的客户提供不同的贷款政策。

2.贷款收回情况分析

主要包括账户余额分析、本金收回情况分析、利息收回情况分析、欠款欠息情况分析。

账户余额分析:对贷款还本付息后所剩金额进行分析,透视各项贷款余额在不同属性的客户、不同的贷款产品、不同时点、不同的业务处理方式等维度下的分布情况。

本金收回情况分析:跟踪本金的回收情况,通过对总量和笔数指标进行分析,展示在不同时间段内回收本金的类型和状态,及时发现不良贷款。

利息收回情况分析:通过对贷款利息收回情况进行分析,可以了解贷款的收息进度、各类客户、各类产品的收息情况。

欠款欠息情况分析:通过对贷款欠息情况进行分析,全面了解各类客户中的欠息情况,分析欠息在客户群众的分布情况,从而为欠息催缴工作提供参考依据。

3.不良贷款分析

一般对贷款实行五级分类,分为正常、关注、次级、可疑、损失五个等级,需要识别出哪些是不良贷款,对其进行监控。

(二)事实表、维度表和粒度

1.事实表

事实表的每条记录有唯一确定记录的主键和由主键唯一确定的度量组成。其中,主键由连接维表的外键和一些起唯一确定记录作用的字段组成;度量值包括两类:属性值和测量值,属性值标识记录的状态,比如该记录是否有效,测量值是用户需要分析的一些事实。基于对银行个人信贷系统主题的分析,可将贷款处理表作为事实表。

2.维度表

维表是指与某个事实表相关联的表。每个维度表按其主键进行定义,该主键被用做考察与其相连的特定事实表的参考完整性的基础。本系统的维度表主要有:借贷产品表、时间维度表、客户维度表、机构维度表(可分为总行、分行、支行等)、地理维度表、还款情况表。

3.粒度

所谓粒度,与数据仓库结构相关,是指数据仓库中一组数据单元所包含数据的详尽程度。数据内容越详尽,其粒度层就越低。数据内容的汇总程度越高,其粒度层次就越高。粒度层次划分的恰当与否将直接影响数据仓库中要存储的数据量和查询方法,通过粒度划分也决定了数据在数据仓库中的存储是采用单一粒度还是多重粒度以及统计的粒度层次。由于银行报表是按省、市、县三个级别分别予以统计显示,故统计的粒度层次可以按机构分为省、市、县三个层次。

(三)多维逻辑模型的设计

数据仓库的多维逻辑模型主要由事实表和维度表组成。多维逻辑模型比较典型的有星型模式和雪花模式。与雪花模式相比,星型模式有结构简单、表的数目少、易于理解和实现等特点。另外星型模式中主要数据都在庞大的事实表中,可以提高查询的性能和便于用户安排不同的查询。本文以贷款处理表作为事实表并采用星型模型来构建系统逻辑模型。

四、数据仓库的安全性

基于数据仓库的个人信贷系统由于涉及客户的个人信息以及银行各个机构的业务和财务,所以必须保证信息的安全性。需要对其严格的授权管理和灵活的权限组合。

(一)安全级别的管理原则

1.总行领导可查看所有信息;2.各级机构及人员只能查看所辖范围内信息及同级的部分汇总信息;3.根据人员职能不同,可分组授权,也可单独授权。

(二)安全级别的技术实现

1.数据分析模型权限管理机制。系统管理员根据实际需要对不同的多维分析模型授予不同的用户或用户组,只有授权的用户才能看到此多维数据库中的数据,例如:总行部门负责人的权限控制在其职能范围内的多维数据分析模型上,使其只能访问自己职能管辖范围内的数据。2.前端分析工具的权限管理机制。前端分析工具也应授权控制,可以使用SSL加密协议,加强客户端浏览器到Web服务器的通讯信道的安全性,包括服务器认证,客户端认证,对信息加密等安全措施。

五、结语

数据仓库及其相关技术在银行客户关系管理中的应用研究是近些年来金融界的一个热点,个人信贷管理在银行客户关系管理中占据着重要的地位。本文设计了个人信贷数据仓库的总体架构,并对该系统的建模过程进行了详细论述,通过有效利用数据仓库和OLAP技术,可以为银行高层决策者提供准确的客户类别划分、盈利能力及潜在客户等有用信息,降低了贷款风险和成本,为制定最优的银行营销策略,增加利润及加速银行发展具有很大的助推作用。

上一篇:企业破产重整中债权人利益保护研究 下一篇:机构持股对股价宏观波动影响的非对称性