聚类分析与范例推理在反洗钱中的应用

时间:2022-05-18 12:58:56

聚类分析与范例推理在反洗钱中的应用

摘要:本文以数据挖掘技术在可疑金融交易识别中的应用现状为铺垫,探讨了聚类分析和范例推理技术在反洗钱中的应用。在分析数据挖掘技术运用于可疑金融交易识别的基础上。对我国的可疑金融交易识别研究提出浅见,希望对我国的反洗钱信息系统的建设有所裨益。

关键词:反洗钱;数据挖掘;聚类分析;范例推理

反洗钱的主要工作是要从可疑金融交易信息中识别可能隐藏着洗钱犯罪交易的线索,从而在资金交易领域筑起洗钱犯罪的屏障。利用科学的信息技术手段已经成为各国金融机构打击洗钱犯罪的重要手段。如何从海量的金融交易数据中有效识别可疑金融交易成为反洗钱工作能否顺利开展的关键问题。数据挖掘作为一门新兴的数据处理技术,能够从海量数据中提取出有用知识,已经越来越受到人们广泛的关注。本文分析了数据挖掘技术在可疑金融交易识别中的应用现状,并探讨了范例推理技术和聚类分析在反洗钱中的应用,为数据挖掘技术在可疑金融交易识别中的应用提供新的途径。

一、数据挖掘在可疑金融交易识别中的应用现状

所谓数据挖掘(Data Mining),是指从大量的数据中发现并抽取隐含的、未知的、有潜在应用价值的知识过程。数据挖掘的目的是为决策者提供有效的决策支持。面对成千上万的金融交易报告数据。如何利用数据挖掘技术识别可疑金融交易是反洗钱工作中的关键问题。目前,已经应用在可疑金融交易识别中的数据挖掘技术主要包括孤立点分析(Outlieranmysis)、序列模式挖掘(Sequential pattern mining)、链接分析技术(Link Analysis)、决策树技术(Classifi-cation)等。

结合洗钱行为的异常特点,运用数据挖掘技术可以使用孤立点分析来检测异常资金量的转移;序列模式挖掘也是反洗钱技术中的一种选择,它可以用于分析具体一段时间内具体个人的行为,并可能得出异常访问模式的特征;链接分析可以从大量不同类型的目标中找出其关联关系,其目标包括自然人、银行账号、企业、电汇和现金存款,找出它们的联系并显示出合法活动和非法活动的关系图:决策树技术也是一种比较好的选择方案,它可根据先前规定的可疑交易数据的分类规则对各种报告数据进行分类,以树状的决策结构显示出来。该技术得出的结果可为分析者提供一系列彼此相互分离的独立路径,从而为分析者提供一个推理框架,帮助其摸清整个洗钱活动的过程,并了解某一具体的洗钱操作在整个洗钱链条中所起到的特殊作用。总之,这些数据挖掘技术可以识别出一些重要的活动关系和模式,有助于调查人员进一步关注可疑金融交易并进行深入调查。

一些发达国家在利用数据挖掘进行反洗钱系统建设方面已经取得了一定成绩,他们不仅建立了专门分析和收集情报的金融情报中心,同时还建立了功能强大的反洗钱系统。例如,美国金融犯罪执法网络(Fi―nancial Crimes Enforcement Network,FinCEN)的-FAIS(FinCEN Artificial Intelligence system)系统利用数据挖掘的一些算法如聚类分析等技术,实现对可疑交易报告进行分析和评估。澳大利亚交易分析与报告中心(Australian Transaction Reports and Analysis Centre,AUSTRAC)开发的ScreenlT系统,通过运用数据挖掘中的多种技术实现可疑交易报告自动筛选。其他地区如欧盟、加拿大应用数据挖掘技术进行可疑金融交易识别也比较成熟。在我国,中国人民银行于2004年4月成立了反洗钱监测分析中心建立支付交易监测系统,国家外汇管理局也于2005年开发了反洗钱信息辅助核查平台。但总体而言,我国反洗钱系统建设尚处于起步阶段。利用信息技术进行可疑金融交易识别的水平仍然较低,未能充分运用数据挖掘技术识别可疑金融交易信息。

二、数据挖掘前沿技术的可疑金融交易识别研究

洗钱犯罪日新月异,识别可疑金融交易信息的技术也必须不断改进以适应变化。目前,反洗钱应用中的数据挖掘技术从孤立点分析、序列模式挖掘、链接分析、决策树等传统技术,逐步转向数据挖掘中的一些新技术如聚类分析、基于范例推理等,在此分别探讨聚类分析和基于范例推理在可疑金融交易识别中的应用情况。

1、聚类分析技术的可疑金融交易识别研究。

聚类分析(Clustering)通过将数据对象分成多个类或簇,实现在同一个类中的对象之间具有较高的相似度,而不同类中的对象之间差别较大。聚类分析在聚类过程中可以选取不同属性和不同聚类方法,实现将具有相似交易行为的个人或者企业的账户聚为一类。针对个人和企业的金融交易数据,选取不同的数据属性进行多角度分析,并从中识别出可疑交易数据,有助于调查人员作深入调查。此外,聚类分析可作为反洗钱系统中数据预处理的一种方法,用于发现表面上毫无关联但实质上有关联的若干主体。例如,通常通过聚类分析可以将属于同一生产制造业且资金流量相似的企业聚为一类,但若其中一家公司被聚类到其他行业如服务行业中,则有可能认定该公司是一个“空壳公司”,为调查人员提供重要线索。一些发达国家已经应用聚类分析协助反洗钱的调查分析,如美国FinCEN的FAIS系统。

针对可疑金融交易识别问题,在选定聚类方法的同时,需要考虑金融交易数据的特点并选定聚类的属性。在分析金融数据的特点时,可知对于洗钱者的银行账户,洗钱资金必定要经过流入与流出两个阶段。因此,可从资金流入和流出两个角度分别考虑,一定时期内同时具有大额、高频率资金流入和流出账户的洗钱嫌疑较大,应作为重点怀疑对象。所以,对资金流入和流出的两种情况下分别进行聚类分析,将资金流入或流出情况相似的聚集在一起,通过比较高频率、高流入量的可疑账户与高频率、高流出量的可疑账户作进一步分析,同时对可疑账户按照洗钱嫌疑的程度进行等级排序。

为了进一步说明聚类分析方法如何应用于可疑金融交易信息识别领域,可以分别从交易金额和交易频率两个角度对金融交易数据进行分析。例如,可以将个人账户看作为同等类型、同等规模的个体,对其进行数据分析时直接考虑一定时间内的交易金额和交易频率即可。同时,考虑到一天之内每笔个人交易金额都相对较小,为了体现不同个人交易行为的差异性,可选取一定的时间段(例如一年)作为时间周期。

在应用该识别流程时,首先选取源数据分析其是否适合聚类分析。例如,选取身份证号作为聚类分析中每条交易数据的身份标识号码(identification,ID),年交易金额和年交易次数则作为聚类分析的属性。在聚类分析时根据每条交易的属性的相似程度进行聚类,当聚类结果显示,在聚类过程中所选取的所有属

性都能发挥较大的作用则说明聚类结果显著;若聚类过程中某一属性如年交易金额并没有使用,则仅使用年交易次数作为实际聚类过程中的聚类属性,或者聚类过程中没有太多使用任一个属性,在此情况下说明所选取的属性都不合适,从而认为聚类效果不显著。同时,聚类分析是一个循环反复的过程。若聚类结果不够显著,需要将异常数据从源数据中剔除,并将异常数据列入需要深入调查的可疑名单专门保存。然后对处理过的源数据进行再次聚类。此外,为了避免与上次聚类的结果重合,需要改变聚类方法,依次类推,直到聚类结果显著为止。最后,将在聚类过程中的所有异常类数据进行汇总保存,所得数据即为可疑数据,从而以账户为主题确定出可疑名单。按照此应用流程分别对资金流入和流出两种情况进行分析,所获得的两份可疑名单的交集作为重点可疑对象进行深入调查,而将其并集作为一般可疑对象。

2、范例推理技术的可疑金融交易识别研究。

范例推理是一种基于历史经验的推理方式,具有很强的自学习能力。范例推理可以设计成为反洗钱系统中用于识别可疑金融交易的关键部分,利用金融交易数据信息,识别出具有可疑特征的交易活动。典型的范例推理系统包括四个连续的过程:检索(Retrieval)最相似的范例;重用(Reuse)能够解决当前问题的旧范例;修改(Revise)所建议的解决方案;保存(Retain)有价值的新范例。在实际操作中,确定为可疑交易活动的新范例会被加入到范例库中,而范例库中冗余的范例会被删除,或修改其解决方案作为新范例保存。针对一个交易活动的原始交易数据,用户根据要求提取能够准确表达问题特征的指标,并将其表示成范例,同时通过一定的索引规则从范例库中检索范例。若检索到一个或者多个相似范例,则从中确定一个最相似的范例,对其进行范例调整。根据实际情况对具有可疑特征的交易确认其解决方案是否满意,如果满意就确定其为可疑交易,同时将其保存在范例库中。否则,就需要对解决方案不断调整直到满意为止:若没有检索到相似范例,则重新分析该交易数据,结合反洗钱领域知识和经验确定是否为可疑交易。如果是可疑交易的范例,就将其作为新范例保存在范例库中,否则直接退出。因此,基于范例推理在反洗钱中的应用涉及的关键技术涉及到范例库建立、范例检索、范例调整和保存等问题。

在此对范例库建立和范例调整、保存作重点说明。范例库中存储具有可疑特征的洗钱范例,包括可疑交易活动的具体问题描述,主要是提取能够准确反映交易活动的特征,还有针对可疑金融交易活动的处理方案,如根据可疑交易的严重程度是否能表明其涉嫌洗钱犯罪等信息。如何准确表示可疑交易活动的范例,如何组织这些具有可疑特征的范例,如何建立范例库的索引,是建立范例库的关键问题。范例库中,范例间的组织可以采取线性、层次和网状的方式。若系统能够检索到最相似的范例,决策用户就需要对其做调整,使解决的方案能够符合当前可疑金融交易活动的情形。由于洗钱手段日新月异,最终提交用户的交易数据一般与范例库中的范例情形不一样,如交易金额和交易类型不一样,那么相应的解决方案也不一样。在确定最相似的范例后,对其解决方案需要不断的调整直至决定满意为止,并保存在范例库中。这里涉及对范例调整的机制问题,虽然通过计算机可以实现自动调整,但系统仍需要采用人机交互过程来完成,即结合相关专业人员的经验完成调整过程。同时,所有确定为可疑金融交易的信息都需要保存,以备将来出现类似情况时加以应用。

三、结论

目前我国正在运行的金融交易识别信息系统一般都只具有比较简单的分析处理功能,不支持复杂的数学模型。无法对可疑金融交易报告进行有效的评测,使得一些潜在的洗钱风险无法通过系统及时发现,识别可疑金融交易报告仍然停留在依赖监管人员自身的业务素质和直觉判断的基础上。同时国内对可疑金融交易识别研究尚处于起步阶段,缺乏对我国金融数据结构的深刻分析,特别是利用数据挖掘技术对金融交易进行识别的研究还相对落后,而外国同行视其为核心机密不肯透露。因此,我国从现在起,应重视对可疑金融交易识别技术的研究和开发,相关主管部门应采用先进的信息技术识别可疑金融交易信息,打击和防范洗钱犯罪。例如,聚类分析由于是按照数据集本身特征自动分类,并不需要用户事先制定规则,而我国的反洗钱实践尚处于起始阶段,缺乏一些作为筛选可疑金融交易的分类规则,因此可以结合我国金融交易数据的特点,采用聚类分析将具有相似交易行为的账户聚为一类,并对聚类结果中的各类进行分析,尤其对交易行为相对异常的类进行深入调查。同时,基于范例推理具有很强的自学习能力,能够利用初始范例不断自我学习,并及时检索具有可疑特征的洗钱范例。它们在一定程度上弥补了人工操作难以发现复杂洗钱行为的不足。为数据挖掘在反洗钱系统中的应用提供了新的途径。

总之,我国应十分重视可疑金融信息识别技术的开发,充分利用数据挖掘等信息技术,开发各种可疑信息识别模型,对金融机构的各类可疑交易信息进行分析、预警和预测,有效地发现大量潜在的洗钱风险,提高反洗钱工作的准确性。

上一篇:我国新型支付组织发展现状及管理政策思考 下一篇:住房公积金制度改制为政策性住房金融机构的设...