特征树阀值检测算法应对电信欺诈

时间:2022-07-06 07:09:38

特征树阀值检测算法应对电信欺诈

摘要 电信网络日益复杂,这增加了电信营运的难度,并且大额欺诈和恶意欠费的状况使电信运营收入存在较大的风险。本文在数据挖掘技术、基于聚类的层次分析算法等理论基础上,采用了欺诈特征树阀值检测算法来应对电信欺诈,防范电信运营收入的流失。该算法将用户的数据特征项构建成欺诈特征树,采用关系数据模式来组织用户的欺诈特征项,并设定结点阀值作为检测判断的依据,依照用户最后的欺诈度值判断用户是否欺诈。算法简单高效,系统占用较少的内存并获得了较高的准确率。

关键词 数据处理;电信欺诈;数据挖掘;特征树;软件

中图分类号 TP31文献标识码Adoi:10.3969/j.issn.1003-

6970.2011.01.003

Fraud Detection In Telecom Business Based On Feature Tree Analysis

LI Chun-lin1

1(Telecommunication Engineering, Beijing University of Posts and telecommunication, Beijing 100876, China)

【Abstract】In this paper, we focus on the need for telecommunication business about the fraud problem, to guarantee the revenue issue.The paper describes the antifraud system based on Data Mining theory and fraud feature tree construction.Data Ming provides an overall method framework in solving the problem while fraud feature tree construction is a detail on how the fraud detection is proceeding. Three elements come first before the feature tree is successfully constructed: telecommunication fraud characters analysis, subscriber data analysis, basic understanding on telecom business.The final solving method named ‘fraud verdict by nodes in feature tree ’.Its inspiration comes from the FT(feature tree) in BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies),abnormity detection base on clustering analysis, related data modal research in Data Base.The creative points in this paper also include the data analysis methods. We use efficient data process tools, such as MATLAB and office data analysis tools. They turn the illogic discrete and meaningless data to vivid graphs that reveal the latent deception in telecom subscribers’ behavior.

【Key words】data analysistelecom frauddata miningfeature treesoftware;

0 引言

近些年来,通过调查研究发现当前主要存在恶意欠费、订购欺诈、技术欺诈和内部欺诈几种类型的欺诈行为。这些欺诈行为给电信运营商造成了较大的收入流失。

电信用户数据多如牛毛,并且数据还在以指数级增长,如何在海量的数据中找到其中隐藏的宝贵信息资源,减少算法复杂度,是论文主要解决的问题。目前,应用得非常广泛的一种数据分析方法――数据挖掘技术,是对数据进行分析并做出归纳性的推理,从中挖掘出潜在的模式,而这只是提供了解决问题的一个方法框架,真正有效应对这个欺诈问题,则是在选择具体的算法中,经过反复尝试和结果对比分析,最后总结出:欺诈特征树阀值检测算法。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取出隐含在其中的、未知的、但又潜在有用的信息和知识的过程[1]。特征树阀值检测算法是在数据挖掘技

术基础上运用了基于聚类的层次分析算法、异常检测算法等[2],再结合北京东方文俊软件科技有限责任公司的收入保障[3]项目,对电信用户的数据进行欺诈分析,以此整合客户海量历史数据,然后通过对客户基本自然属性与历史行为属性的数据进行深入分析,并提炼出欺诈客户属性特征、呼叫行为特征、消费行为特征等数据项,最后经过规约后形成欺诈特征项,即可构建欺诈特征树[4]和建立客户欺诈预测模型,从而可用来预测未来客户发生欺诈的可能性及其原因,为市场决策人员和客户管理部门人员采取有效措施提供依据。

1 反欺诈系统

根据决策支持系统[5]和数据挖掘技术[6],并在分析用户欺诈行为类型和用户原始账户数据的基础上,建立本课题的反欺诈模型执行框架。

反欺诈系统分析如图1所示:

根据数据挖掘的几个步骤,可将整个系统分成数据采集,数据预处理,核心算法,结果评估等几大模块。下文主要从数据预处理和核心算法等方面来分析反欺诈算法。

2 数据预处理

采集了用户的消费账单信息和呼叫行为信息后,需要对这些原始数据进行一系列的分析处理。

2.1 原始数据分析

为了从电信用户表面的数据信息中挖掘其潜在的行为模式,需要对他们的月消费账单和呼叫行为记录表等数据进行分析,并从中提取欺诈特征项。而所提取的特征项应该能很好的反映用户的消费行为特征和呼叫行为特征。特征选取定义为它是一种处理数据的工具,它按照指定的准则对数据集的描述特征进行鉴别和筛选,从中选出与所采用的归纳学习方法相适合的有用的特征子集[7]。

在收入保障项目中,数据库是1万个电信用户12个月的消费账单和6万个电信用户的月呼叫行为记录。对电信用户的账单进行观察后发现:

1、有些用户12个月的账单额度都是0;

2、相当一部分客户每个月的消费额度恒定,恒定值的大小从5元到几千元不等;

3、有少部分用户12个月中断续有几个月消费额度为0,而剩余月份消费额在正常范围内;

4、一部分客户月消费额度曲线为上升沿,即开始几个月连续为0,然后突然连续几个月正常消费或者出现下降沿,连续正常消费数额后突然连续月消费额为0;

5、月消费额曲线出现毛峰,用户突然出现消费额度,然后仅一两个月后迅速不再消费。

根据以上观察结果并结合电信业务自身的特点,提取能代表用户欺诈属性的特征值。这个过程在整个反欺诈框架中至关重要,它决定着算法的复杂度、精确度和适用范围。

对电信客户行为分析指标主要包括客户属性特征、呼叫行为特征和费用行为特征。

客户属性特征包括:区域归属(省、市、县和城区、农村)、生理特征(年龄段、性别、身高)、社会特征(婚姻状况、职业、教育程度、收入等);

客户行为特征包括呼叫行为特征和消费行为特征。呼叫行为以本地通话为例,主要包括本地通话时长、本地通话平均时长、主叫通话时间、被叫通话时间。呼叫次数包括本地通话次数、主叫通话次数、被叫通话次数。主被叫比例也叫打出打入电话次数比;费用行为特征有月消费额、月长话费、月市话费、增值业务费等。

应用模型的建立,需要更多的考虑实际的情况,现在用户入网的条件放宽了,很多电信用户入网不需要提供太多的个人信息,使得用户属性信息很少,获得最多信息的是用户的消费信息和呼叫行为信息。最后的欺诈特征值还需要对这些原始数据项进行规约和转换处理,处理后的特征项将更好的反映数据的潜在规律。

根据以上分析可以得出下表中的用户呼叫行为属性,还有一个数据仓库是用户12个月的月消费额,根据这两个数据仓库建立用户的欺诈特征数据项。

其中,客户的账号Serv_id是关系数据库的主键。在处理数据的过程中,用数组来存储这个用户每个月的消费额:ArrayList MC=new ArrayList()。

2.2 特征项分析

提取完用户的消费行为属性和呼叫行为属性后,还要对这些数据进行数据转换和规约处理,使得数据更加适应后期应用。主要通过投影或数据库中其他的合并操作减少数据的量,也就是进行数据归约,将庞大的数据量压缩成为在可接受范围内的数据,并保持原有数据的完整性和有效性,需要时进行数据集成与变换。数据挖掘往往需要多种不同数据,因此需将多个不同数据体进行变转、抽取而集成为统一的数据平台。即选择、清洗、重构、格式化数据、属性规约等。

如何选取有效的用户数据项,关系到算法的复杂度和分类的有效度,当然应该选取那些尽可能突出欺诈特征的数据项,并以准确性为选取数据对象好坏的评判标准和指标,选取能更好的表现数据潜在规律的数据项。

由以上分析结果,选取表2的几个变量作为用户欺诈特征数据,并形成以用户id为主键的8个维度的关系数据库信息。

特征项的数据标识符是特征项英文名字的首字母缩写。例如,MCIR全称是Month Consume Increment Rate,MCTIR

全称是Month call Time Increment Rate等等,这些欺诈特征将作

为特征树的特征结点,每个特征值对应一个经验阀值和欺诈权值,比如由不断反馈调试,得到的经验阀值是V_mcir=30,权值是W_mcir=0.9,若某用户的月消费金额增值率的变量值为

MCIR=0.023,小于V_mcir=30,则意味着该用户的月消费增长率在经验阀值以下,该用户的消费属性是在正常范围内的,用户欺诈度不变;若MCIR=45,意味着该用户月消费增长十分明显,超过经验阀值,需要对用户的欺诈度进行修改,欺诈度增加了0.9个数值,即FraudValue=FraudValue+W_mcir。

本节对建成的数据库数据进行定向分析,挖掘本课题相关的知识,包括月消费额分布、月消费增长率分布、月通话时间增长率分布、呼叫接听电话频率比分布等。

下面用Matlab对用户数据进行分析,图中说明的“正态分布曲线”是指以所有输入数据的均值 和方差 为参数形成的正态分布曲线,即N( , )函数曲线。图中的小图是程序运行结果原图,它反映了所有输出数据所涉及到的范围区域;外面的大图是截图,截取原图中的某一区域,观察范围缩小后可以清楚的显示重要区域的细节特征。图2-图5都是由两个图组成,是为了合理排版,将一个图缩小,放到另一个图的空白区域,不仅节省空间,也便于比较。

图2 月消费额MC分布图

图2是由1万个用户的12个月份消费额连成一维的12万长度矩阵mc,用histfit(mc)对数据的数值分布情况进行分析的结果。

表2 欺诈特征项

从图2中,可以分析出如下的结果:

1、11绝大部分用户月消费额分布图表明用户月消费额集中在1-200元这个区间内;

2、12万月消费额中,月消费额的上限是5000元,1000元以上的月消费额用户不到1%;

3、月消费额为0的用户数占有不少的比例。

图2为用户月消费额的分布情况提供更精准的数据和直观的认识。从以上的分析结果,可以为用户的初步分类设定阀值:月消费额在[0,100]区间的是低端用户,(100,500)为中端用户,500以上为高端用户。

图3月消费额增长率MCIR分布图

图3是1万个用户关于2009年2月的话费增长率分布图,2月份消费额增长率是指2月和1月消费额的差与1月消费额之比。

从程序分析结果图中可以看出:

1、1万个用户的2009年2月的月消费额增长率最高为3400%,即2月消费额是1月的34倍;

2、绝大部分用户的月消费额增长率集中在(-1,2.5)区间,说明大部分用户月消费额平稳;3、有一些零散的点,游离在(-1,2.5)区间的右侧。

这些点说明有些用户2月份的消费额与1月份相比有明显的消费徒增的现象。

从以上的分析结果,可以设定欺诈特征“月消费额增长率MCIR”的初始阀值,初步设定对应低、中、高端用户的阀值依次为15倍、8倍和4倍。

1、月长话市话比值大多集中在0.5到1.2之间;

2、在采集的数据中,最大的比值是300;

从分析结果可以看出月市话比月长话的时间偏多,从数据分布的区域可以设定市话长话比这个特征项的阀值为:5(低端用户),3(中端用户),3(高端用户).

和图4的分布情况非常相似的是6万个用户的月长途电话通话次数和市通话次数之比R2LCF,从程序分析结果图可以看出:大部分用户的市话长话的通话次数一样或者市话次数稍微多些;最高的长话市话通话次数比为6.2倍,绝大部用户的长话市话通话次数之比集中在(0,1.5)的范围内;

因为月长话市话通话次数分布图的图形和图4很相似,只是数值不一样,就不放这个图了,只给出分析的结果。

从以上分析结果可以大致设定下该特征项的阀值,将2.5倍往右的用户视为异常行为用户,即该项欺诈特征阀值初步设定为5(低端用户)2.5(中端用户)3(高端用户)。

图4是用户一个月内的长途电话通话时间和市话时间之比,这个结果图和月长话次数和市话次数之比分布图非常相似,这说明通话时间和通话频率是成正比的,也说明特征项存在冗余的情况,需要对这两个数据进行压缩处理。

换一个角度,就是用户的月消费额和用户月通话时间应该存在一个范围内的恒值,若月通话时间超长,而月消费额很少或者没有,则月通话时间和月消费额的比值将会远远偏离正常的聚类用户数据。用matlab分析这个比值的分布情况如图5所示:大部分用户的月通话时间和月消费额的比值在0-500之间,超过这个范围的用户将视为有异常行为的用户,所以该项欺诈特征阀值设定为500,比值超过500的用户视为有欺诈潜在可能性,需要对用户的欺诈度进行修改。

3 程序算法

算法的整体思路为:通过分析电信用户的数据,提取电信用户的欺诈特征值,并将数据项构建成欺诈特征树,树上每个节点对应一个欺诈特征数据项、欺诈阀值、欺诈权值,从欺诈特征项的数值分布情况,确定该结点的欺诈特征阀值,若用户的欺诈特征值超过这个阀值,则用户的欺诈度会相应的发生改变,改变大小根据欺诈特征项的权值而定。利用关系数据模式组织用户欺诈特征项,大大简化算法的复杂度。

做好特征提取后,下一步是进行构造特征树,特征树的建立是基于对电信用户的消费行为习惯和属性信息的分析建立起来的。在构建特征树之前还需要先处理数据仓库中的异常数据,信息预处理模块对异常数据的处理方法是建立一个异常数据特征树,对其中的异常情况用特征项进行检测,如图6所示。表3 欺诈特征项的初始参数体系

欺诈特征树各个初始阀值和权值的设定为表3。

全0消费是指抽取到用户的所有月份消费额都为0;负值

图6 异常数据特征树

消费用户是指某些用户出现月消费额度为负数的情况;凸值消费是指在连续某几个月中,前后几个月都是消费额为0,只有中间若干个月存在消费记录;凹值消费指在连续几个月中,中间某一个或者若干个月的消费额度为0;下降沿型消费是指在连续几个月中,用户从某个月开始消费一直为0。

除了负值消费,其他的异常情况都有一个共同特点,即都存在一个或者若干个月的消费额度为0的情况。对于全0消费用户,情况可能是该账号的用户已经停止使用该号,也可能是计费系统出问题或者内部人员的违规配置操作。只要月消费额度为0,则可以采用月通话时间、通话频率去检测,若月通话时间MCT不为0,月通话频率MCF也不为0,则需要调整该用户的欺诈度,FraudValue=FraudValue+Weight。

对于少量的负值消费数据,可以考虑删除;对较多的负值数据,可以归为异常数据范围,对这类异常情况进行定量分析:先对数据取绝对值,然后用月消费额和月通话时间比值、月消费额和月通话频率比值等来检测,若在正常值范围内,则可以对数据取绝对值,再按正常客户数据进行流程处理。

对其余大部分用户数据,需要根据欺诈特征树上的叶子结点也就是欺诈特征项去检测用户的数据是否存在欺诈行为特征。根据之前的特征项分析结果,可以很容易的得到图7和表3。

下面解释下特征树上结点的特征值:

第一层:用户分类,为根节点下的一层。凭用户月平均消费额MC将电信用户分为高端、中端和低端用户,即这层有三个节点。这样分类可以细致的调节各节点上的阀值,使得归类和推断更加精确。

第二层:用规约好的欺诈特征去检测用户的消费行为属性是否在正常范围内。用来检测的欺诈特征值有月消费额增长率MCIR、月通话时间增长率MCTIR、月打出打入电话频率比增长率O2IFIR、月长话市话比增长率R2LTIR、月呼叫时间和月消费比MCT2MC等。随着分析的深入可以添加新的特征值。

根据消费档次假说[8],对于忠诚消费用户来说,增长率应该集中在某一个范围内,超过本节点的阀值的,用户欺诈度增加,增加的幅度为欺诈特征的权值。

整个算法的过程程序化,并由计算机完成对数据的判断、处理和结果输

4 结论

用户特征数据项的分析包括:数据预处理阶段的异常数据(全0值、凹值、凸值、负值等)所占比例,异常数据中欺诈用户所占比例,非异常数据中的月消费增长异常量、月消费结构异常量、通话均值费用异常量等。

在收集的电信用户原始数据中,在数据预处理阶段的异常数据占10.29%,在这些异常数据中,全0值用户占70.23%,凸值数据用户数占6.84%,凹值用户数占5.59%,负值用户占13.34%等。最后根据欺诈度值判定为欺诈嫌疑用户的比例为0.4311%.

这些分析结果不再用表格展示而改用更加形象直观的饼状图展示出来。如图10所示:

图10分析结果展示图

从理论上,欺诈特征树阀值检测算法符合准确度、速度、可伸缩性和可解析性的要求。在解决电信欺诈问题上提供了适用性较强的反欺诈应对算法。

致谢

感谢给我提供的所有资源和一次次提出的修改意见的刘老师,还有为我提供电信用户数据的产品部门赫经理,感谢他们给予的帮助和支持。

参考文献

[1] Jiawei Han,Micheline Kamber.范明,孟小峰等,译.数据挖掘概念与技术[M]. 北京:机械工业出版社. 2002.

[2] 蒋盛益. 基于聚类的入侵检测算法研究[M]. 北京:科学出版社. 2008. 第一版.

[3] 吴乃星,何波,栗华,等. 基于3G环境的电信收入保障及系统实现研究[J]. 电信网技术. 2006.

[4] 郭玉滨. 决策树算法研究综述[J]. 电脑知识与技术. 2006.

[5] 徐洁磐. 数据仓库与决策支持系统[M]. 北京:科学出版社. 2005

[6] 吴志勇,吴跃. 数据挖掘在电信业中的应用研究[J]. 计算机应用,2005:136-137.

[7] 黄金杰. 模式分类中的特征选取问题研究[D]. 上海. 上海交通大学. 2006.

[8] 刘道宏.基于数据挖掘的电信客户欺诈预测模型研究[D]. 大连:大连海事大学硕士学位.2008

作者简介: 李春霖(1985-),女,硕士学位,信息与通信系统

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:基于Morlet复小波变换幅值和相位信息的间谐波... 下一篇:旧式载客电梯选层控制系统改造方案的探索与设...