银行企业客户交易中的行业关联分析

时间:2022-08-21 07:16:44

银行企业客户交易中的行业关联分析

摘要:本文根据数据挖掘技术中的多层关联规则方法,提出了建立银行交易中的行业间关联规则的基本思想。给出基于多层行业分类表、银行企业客户信息和大额历史交易数据的行业间关联规则的建立过程。本文目的是为了通过建立行业间关联规则发现那些原本关联度很小的可疑银行交易,为银行反洗钱技术提供参考。

关键词:反洗钱;可疑金融交易;数据挖掘;关联规则

中图分类号:F830.5文献标识码:A文章编号:1006-1428(2008)01-0018-04

本文的研究目的是将多层关联规则方法应用于银行交易中行业间关联规则的发现,为有效快速地识别洗钱行为提供思路。

一、关联规则的概述

关联规则(Association Rules)是数据挖掘领域中一个非常重要的研究课题,它是由R.Agrawal等人首先提出的。用于发现给定事件或纪录中经常一起发生的项目,由此推断事件间潜在的关联,识别有可能重复发生的模式[1]。

关联规则作为数据挖掘中的一种数据分析方法,能挖掘出隐藏在数据间的相互关系。关联分析的基本思想是若交易数据集中的两个或多个数据项的取值之间重复出现的概率很高时,就认为它们之间存在某种关联,可以建立起这些数据项之间的关联规则。

在一个交易数据集中,数据项之间的关联规则很多,需要进行筛选,找出有价值的关联规则。“支持度”表示关联规则所代表的事例占全部事例的百分比,如同时包含制造业和船舶运输业的交易数据占全部银行企业支付交易数据的百分比为20%,则该规则的支持度为20%。“置信度”表示关联规则所代表的事例占满足前提条件事例的百分比,如同时包含制造业和船舶运输业的交易数据占所有包含制造业企业交易数据的百分比为45%,则该规则的置信度为45%。可以通过调节“最小支持度”和“最小置信度”两个阈值来淘汰那些无用的关联规则。

二、多层关联规则原理

1.概念层次结构。

概念层次结构(Concept Hierarchy)表示把一组较低级概念映射到与它们相对应的较高级概念的次序,这种映射可以按照偏序关系来组织概念集。反映了概念之间的特殊和一般关系,可以用树、格或者有向非循环图GAD(Directed Acyclic Graph)等来表示,通称为层次结构。有关金融业的概念层次结构可以用有向非循环图1来展现。

注:图1对金融业的行业层次划分参见《国民经济行业分类代码表─J金融业》。

图1中列举了金融业的简单概念层次结构,将金融业分为三个层次,并可以根据需要继续向下划分。

基于关联规则中数据概念的抽象层次,关联规则可分为单层关联规则和多层关联规则(也称为广义关联规则)。在单层关联规则挖掘中,没有考虑现实数据的多层次性,只在概念层次树的最低层进行。而概念层次在要挖掘的数据中经常是存在的,故可以在较高的概念层次上发现关联规则。多层关联规则挖掘能够在概念层次树的各个概念层上进行,而且能够跨越不同的概念层进行挖掘。与单层关联规则相比,多层关联规则能够提供更丰富、更具普遍意义的知识,能够满足更多用户的需求,因此,对多层关联规则挖掘进行研究具有较大的实用价值。

2.多层关联规则定义。

当给定最小支持度时,若数据项集I的支持率大于等于最小支持度,则称数据项集I是频繁项集或频繁模式。

多概念层关联规则的支持度和置信度有别于单层关联规则算法,不能简单的加和,使用集合关系操作中的并操作,可以由包含数据项为子孙的支持度得到包含其双亲的支持度,如公式⑴、⑵,父结点的支持度(和置信度)就是由其下子孙结点的的支持度(和置信度)的并操作得到的。

其中X 是包含在相关数据库中的全部事务集,|t|是包含在t中的事务数。由于X和Y可包含分类不同层次的数据项,故称多层关联规则。

公式⑴、⑵中所列的支持度和置信度分别反映了多层关联规则的有用性和确定性。可信度(或称信任度)是对多层关联规则的准确度的衡量,支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。多层关联规则挖掘是指在给定的事务数据库D和项集合上的概括层次树T,按照预先设置的 最小支持度和最小置信度,发现所有的强关联规则,而关联规则中的项可以位于T的任意层次。

3.多层关联规则算法基本思想。

现有的多层关联规则挖掘算法主要是Yongjian Fu提出的ML-T2L1算法。ML-T2L1算法利用自上而下策略,从最高层次向低层次方向进行挖掘时,对频繁项集出现次数进行累计,以便发现每个层次的频繁项集,直到无法获得新频繁项集为止。也就是在获得所有概念层次1的频繁项集后,再挖掘层次2的频繁项集,如此反复进行。

算法ML_T2L1的基本思想是首先根据要发现的任务从原事务数据库生成一个根据概念层次信息进行编码的事务数据库,利用这个具有概念层次信息的新生成的数据库,自顶向下逐层递进地在不同层次发现相应的关联规则。ML-T2L1算法实际上是单层关联规则Apriori算法在多概念层次环境上的扩展,本文中行业关联规则正是利用ML-T2L1算法建立的。

三、银行企业客户交易中的行业关联规则挖掘

1.建立行业关联规则的数据准备。

(1)在建立行业关联规则之前,首先需要对行业进行概念层次划分。本文采用的划分原则是依据我国第一次国民经济普查行业分类数据。第一次国民经济普查将我国目前所有行业分类大体如下:

① 第一产业是指农、林、牧、渔业;

② 第二产业是指采矿业,制造业,电力、燃气及水的生产和供应业,建筑业;

③ 第三产业是指除第一、二产业以外的其他行业。第三产业包括:交通运输、仓储和邮政业,信息传输、计算机服务和软件业,批发和零售业,住宿和餐饮业,金融业,房地产业,等近20个大行业。

在此基础上,还可以对每个行业进行更细致的划分,如图1是对金融业进行的细分。行业概念层次划分为行业关联规则的发现奠定了科学基础。

(2)根据《人民币大额和可疑支付交易报告管理办法》和《金融机构大额和可疑外汇资金交易报告和管理办法》两个交易报告制度,全国各银行类金融机构必须上报可疑和大额交易数据。上报数据中与建立多层关联规则有关的企业客户信息包括:交易方的企业名称、企业代码、银行账号,交易对方的企业名称、银行账号。根据报告制度获得的大额和可疑交易数据是建立银行企业支付交易行业间关联规则的基础数据来源。

(3)根据《开户单位银行结算账户申请表》,企业在银行开户时需要填写“行业分类”。该项目的选择也是参照国民经济普查行业分类的结果进行的分类。参考行业分类结果可以根据大额和可疑交易数据建立起行业交易数据项文件,作为建立行业间关联规则的直接数据源。

2.建立行业关联规则的步骤。

(1)产生交易数据文件并储存所产生的交易数据结果。设定产生数据前的各项参数和交易数以及数据格式。在此,选取的《企业大额外汇资金月报表》中部分交易数据作为研究对象,由于本文的研究目的是发现行业间的关联规则,需要对交易报告中的数据做一些调整,取消具体企业转而用高层次的行业分类作为层次数据。如表1为经过整理得到的几个行业之间的银行交易数据项。其中的“交易标识号”是对一笔交易的唯一标识,“发生交易的行业”表示交易双方企业所属的行业。

(2)建立一个多层次的行业架构,将企业归纳分类,生成一个有向非循环图(DAG)如图2。为了表示方便,定义“全行业”为最顶层的DAG的导出项,但是“全行业”对于建立行业关联规则没有关系,所以用虚线来表示。

概念树的DAG图可以便捷展示层次数据项的结构,但是在数据挖掘的应用中,概念树应使用树根节点中到每个叶节点的路径表示,由于一棵树的最大层次是可知并是相对稳定的,所以概念树可以用关系表的形式将其路径保存在数据库中。

(3)本例中选择最小支持数为3,即该项交易在整个交易数据项集中出现两次。可得最小支持度θmin为25%,并取最小置信度为60%。此处需要对多层关联规则中用到的几个概念加以说明:

①模式:指包含若干个交易数据项的集合,例如 {铁路运输业,道路运输业,批发和零售业}就是一个关联规则的模式。根据表1交易数据包含的全行业模式为I={第三产业,交通运输、仓储和邮政业,铁路运输业,道路运输业,批发和零售业,第二产业,采矿业,制造业}。

② i频繁模式:在交易数据集I上,支持率大于最小支持率θmin且长度为 i 的模式,记作Li。在多层关联规则中,交易选择集用频繁模式和DAG图中的每个节点联合表示。

根据图2首先生成最低层的行业交易项集,如表2所示。

预选集中数据项包含了所有发生概念树最底层的交易项,支持数据项是按照交易数据项统计的交易发生号,事例数指名发生的总次数,这些数据将为近一步挖掘高层概念关联规则提供基础。这里并不因为数据项{批发和零售业}、{采矿业 }的支持度小于最小支持度而不生成,因为它们在合成为双亲{交通运输、仓储和邮政业}的时候会起到作用。

按照层次关联规则算法,合并所有的孩子结点,并去掉那些小于最小支持度的数据项,将得到表3,形成高层次的行业内部发生的交易。

按照多层关联操作,进一步得到包括两项数据项集,并去掉支持度低于最小支持度的项,如表4可以得到行业间关联度的情况,例如第三产业与第二产业间发生交易的可能性就能够满足最小支持度,而第三产业与采矿业的交易不能满足最小支持度。

(4)根据第三步中生成频繁项集中推导出所有可能的关联规则。如果计算出的规则的置信度大于预先给定的置信度阈值,那么,这条规则就被保留下来,否则删除该规则。最终得到多层行业间关联规则,如表 5所示。

注:表中关联规则的获得是在表1所列出的交易活动基础上得出的。由于数据量小,根据最小支持度和最小置信度的约束,只得到三条关联规则。

3.行业间关联规则的应用。

根据以上行业间关联规则建立的过程,如果将行业包含的范围进一步扩大和完善,同时通过从企业大额可疑交易数据提取大量行业交易数据,最终将建成有关各行业不同层次的关联规则。

尽管如此,行业关联规则的应用还应该结合实际问题进行调整和筛选,例如,表5中得到了三条关联规则,且规则中体现了显著的层次性,但是并不能将其全部视为分析洗钱行为的有效规则,表中列出的第三产业和第二产业等之间的关联规则包含行业面太广,对于发现企业之间异常资金往来没有实际作用,应当删除。因而,表5中真正有用的行业间关联规则只有前两条,应该将该规则加入行业间关联规则表中。

根据各个行业间发生交易可能性的多层关联规则,当得到一条新的企业大额可疑交易数据时,首先根据其银行账户查找到开户信息,获取交易双方企业行业信息,查找行业间关联规则表中这两个行业之间关联规则的支持度和置信度,若表中没有相关记录,说明这两个行业之间以前很少发生交易行为,那么现在两企业之间的交易原因就值得进一步观察。对于其中关联度低的行业之间的交易应当给予更多关注。因此,建立行业间关联规则的目的是为根据两个大额交易报告制度形成的报告数据按可疑程度进行适当的分级,关联规则的支持度和置信度越低,可疑级别越高。应集中主要力量发现可疑性较大的企业间的银行交易数据。

在应用该关联规则时还需要注意,建立行业间关联规则是应用其检测洗钱行为的第一步,行业间关联规则是一个持续、复杂的工作,需要不断地维护和更新。首先,行业间关联规则的建立是一个动态不断更新的过程,随着可疑交易数据的增多,需要不断地用可疑数据对行业间关联规则加以强化,这样才能建立起更加适合反洗钱检测工作的行业间关联规则。其次,由于经济的迅速发展许多新兴行业的诞生,需要及时地对行业分类进行更新和完善。不断加强对企业在银行的开户信息尤其是行业分类信息准确性的审查,为建立可信的行业间关联规则提供保证。

参考文献:

[1]刘同明等著.数据挖据技术及其应用[D].北京,国防工业出版社,2001,9

[2]Jiawei Han, Micheline Kamber.Data Mining:Concepts and Techniques[M].Morgan Kqufman Publishers, Inc.2001

[3]Jiawei Han, Yongjian Fu.Discovery of Multiple_Level Association Rules From Large DataBases[C].Proc 21th VLDB Conference, 1995

[4]蔡国强.一个高效的多维关联规则挖掘算法[C].第全国数据库学术会议论文集.重庆国家科技部西南信息中心,2002

[5]胡向前.基于FP-Tree的多层关联规则挖据算法研究[D].2005 :19-22

[6]HanJiawei, FuYongjian.Mining multiple-level association rules[M].IEEE Transon Knowledge and Data Engineering, 1999, 11(责任编辑:周智立)

“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

上一篇:中国货币替代与铸币税经济关系的实证分析 下一篇:发展我国国际金融中心的战略思考