基于模糊概念的可疑金融交易量化关联规则研究

时间:2022-09-12 10:57:19

基于模糊概念的可疑金融交易量化关联规则研究

摘要:从模糊集的基本理论入手,通过定义模糊概念软化属性域的划分边界,提出了一种新的基于模糊概念的量化关联规则方法。本方法克服了因划分区间而造成数据缺失的不足。最后通过将某市2004年的实际数据运用到建立的算法中,验证算法的有效性,为有效开展可疑金融交易识别提供了有益的参考。

关键词:反洗钱;关联规则;模糊集;隶属函数

中图分类号:F830文献标识码:A 文章编号:1002-2848-2007(02)-0057-04

随着反洗钱工作的不断深入,对海量金融交易数据进行有效挖掘,从中判别出可疑金融交易已经成为反洗钱工作的关键环节之一。具有多种成熟算法的关联规则挖掘算法成为最具挑战性的挖掘工具,最早的关联规则挖掘问题由Agrawal等人提出[1],通过几年的发展,已有了很多成熟有效的算法[2,3],但传统的关联规则挖掘问题仅能处理布尔属性的数据,即项目存在或是不存在。而在金融交易数据中存在大量的表(关系),包含着丰富的属性类型。有的属性是数量型的(如年龄,交易金额等)或者是分类型的(如邮政编码,电话号码等),这些属性间蕴涵着丰富的关联关系。有效的发现这些关联关系,对于实际决策过程具有十分重要的意义。

量化关联规则由Srikant等人于1996年提出,其算法的主要思想是采取分区技术,将需进行量化处理的属性的域划分成一个一个区间,并对相邻区间适当的合并,从而将问题转化为布尔关联规则的问题进行解决[4]。尽管这一方法为解决量化关联规则的挖掘问题提供了一条有效途径,但也存在明显的不足:首先,造成明显的边界问题,即在挖掘过程中,对靠近区间边界值的作用,要么过分强调,要么被忽略;其次,划分的区间可能不简明或无实际意义,不利于专家理解和信息抽取。

同时,通过对已知的洗钱行为的分析,可以发现,大量的犯罪分子在了解可疑金融交易报告体制的条件下,往往会故意减少一点交易金额(使交易金额在监管范围以外),从而达到规避金融部门进一步检查的目的。针对以上问题,本文提出了基于模糊概念的量化属性关联规则挖掘方法。该方法以模糊集理论为基础,通过在数据属性域上定义一组模糊概念,将隐含于量化属性间的关联关系转化为模糊概念间的问题而解决。这样,就可以解决因区间划分不明确而引发的问题,并且使得到的结果简明、便于理解。

一、问题定义

(一) 模糊概念表示

由于金融交易数据的多样性与复杂性,其中很多数据需要借助模糊概念进行表示。虽然模糊概念的内涵与外延都不明确,但人脑却善于判别与处理不精确、非定量的模糊概念,并从中得出具有一定精度的结论。所以,对数据库的量化属性处理不采用区间划分的方法,而采用模糊概念对其进行抽象、概括,从而使得最终挖掘出的规则表示自然、简明、易于专家理解。模糊概念的数学表示就是模糊集合论,其不明确的内涵与外延隶属函数定量描述。所以,模糊概念实际上是在一定论域中的一些模糊集合。

为便于与量化属性统一处理,对属性类型,可将其值映射成整数,从而将类型属性转化为量化属性进行处理:而对于精确概念将其看作模糊概念的特殊情况进行处理,即隶属函数的值域退化为{0,1}。这里的模糊概念及其对应的模糊集和相应的隶属函数可由反洗钱领域的专家定义,或是对大量数据进行模拟测试,经训练得到。

(二) 模糊关联规则定义

利用模糊概念表示的关联规则也称为模糊关联规则。首先定义模糊概念模式及其支持率,然后给出模糊关联规则的定义及其兴趣性度量方法。

为挖掘有效的模糊关联规则,用户必须预先给定最小支持率minsup和最小置信度mincon。所以,模糊关联规则的挖掘问题就是对给定的数据库D和量化属性域上定义的模糊概念集N,发现支持率和置信度分别大于minsup和mincon的所有模糊关联规则。

(三) 早期量化关联规则算法

1.等深划分(equi-depth partitioning)

划分为N个区间,每一个包含大致相同的样本个数。Fukuda提出的等深度划分方法[5]在一定程度上解决了过小支持率和过小置信度问题。这种方法趋向于将支持率较高的区域划分为多个小区间,离散化后原本相近的连续属性取值分散到不同的区间,降低了包含该属性峰值区域的项集支持率;当支持率降到最小支持率以下的时候导致信息丢失。当数据分布在某个点附近达到峰值时,等深度划分这种机械的方法并不能反应出数据本身的特点,因此,我认为对像金融交易数据这样的高偏度数据处理效果不理想。

2.部分k度完全方法(partial k-compelement)

当数据分布在某个点附近达到峰值时,等深度划分不能反映出数据本身的特点。另一方面,聚类方法可以定量地确定对象之间的亲疏关系,对于给定的大样本,在没有已知模式参考情况下,聚类方法能够按照样本的本性将对象分类,在解决数量关联问题中,应用聚类方法将属性值分类,得到的每一类,构成一个区间,可以解决等深度划分不能解决的问题,能体现出数据的分布情况。

Agrawal等人提出的基于支持率的部分k度完全方法的优越之处在于:所得到的区间支持率大于最小支持率,不会因过小支持率而被忽略,同时给出了置信的降低程度,在一定程度上限制了过小置信度导致的信息丢失[4]。

二、模糊关联规则的挖掘算法

由频繁模糊概念模式生成模糊关联规则的算法,通常采用Agrawal在文献中给出的算法。算法中符号分别定义为:D金融交易数据库;N模糊概念集;长度为k的候选模糊概念模式;长度为k的频繁模糊概念模式;p.sum记录对模糊概念模式P的支持率之和。

输入:金融交易数据库D,模糊概念集N及对应的模糊集和隶属函数,最小支持率minsup。

输出:频繁模糊概念模式L。

三、算法验证

为分析方便,仅以个人金融交易数据为例。表1是经过垂直分割后提取的具有代表性的金融交易数据记录,分别为交易标识号(ID)、交易人年龄(Age)、交易收付标志(OutorIn)、交易人本月内交易次数(NumMon)和交易金额(Num)。

表1个人原始交易数据表

表2 在属性Age,OutorIn,Num,NumMon上定义的模糊概念、模糊集和隶属函数

表2分别给出了在属性Age,OutorIn,Num,NumMon上定义的模糊概念、模糊集和隶属函数。其中,OutorIn为类型属性,为便于处理,在挖掘中将其转化为数量属性,用1表示Out,0表示In。

以上关联规则就为我们得出部分普遍性规律,如果某位交易客户违背了这种规律,就可以认为是可疑金融交易行为,可对其进行进一步的分析调查。

四、结束语

与基于分区方法的量化关联挖掘算法比较,该算法的优点:(1)通过定义模糊概念软化了属性域的划分边界,在集合和非集合元素之间提供平滑的变迁,在挖掘时充分地、合理地考虑各个元素所作的贡献,克服了因划分区间而造成的不足,也减少了属性-值对应的数目。(2)用模糊概念表示属性间的关联关系,自然、简明、便于工作人员进行具体的分析。(3)用户可在属性上定义不同数目的模糊概念,方便地控制关联规则的普遍化与具体化的程度。通过实验验证,算法是有效的。

参考文献:

[1]Agrawal R, Imielinski T, Swami A. Mining association rules between set of items in targe databases. In:Proceedings of the 1993 ACM-SIGMOD Conference on Management of Data, Washington,D.C, 1993:207-216.

[2]Agrawal R, Strikant R. Fast algorithms for mining association rules. In: Proceedings of the 20th VLDB Conference, Santiago, Chile, 1994: 247-299.

[3]Park J, Chen M, Yu Y. An effective hash-based algorithm for mining association rules. In: Proceedings of 1995 ACM SIGMOD International Conference on Management of Data, San Jose, USA, 1995: 175.

[4]Srikant R, Agrawal R. Mining quantitative association rules in large relational Tables. In: Proceedings of the ACM SICMOND International Conference on Management of Data, Monreal, Canada, 1996:1-12.

[5]Fukuda T et al. Mining optimized association rules for numeric attributes[C]. In Proceedings of the Fifteenth ACM SIGACT-SICMOND-SIGART Symposium on Principles of Database Systems, Montreal, Canada, 1996.182-191.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:银行规模与经理人激励 下一篇:均衡与演化