电信反欺诈系统设计与实现

时间:2022-05-14 09:50:53

电信反欺诈系统设计与实现

摘要:伴随着通信网络技术的演进,不法分子利用移动通信网络进行电话骚扰的现象日益增加,诈骗运作模式日趋专业化、产业化,实施手段也越来越智能化,对社会安定造成了不良影响。为了有效拦截电信欺诈行为,电信运营商利用大数据能力构建了智能反欺诈系统。该系统在技术层面实现了对现网数据准实时分析、多种欺诈电话识别模型、涉嫌违规号码自动处置等,管理层面实现了属地化管理、数据呈现、投诉查证等功能。

关键词:反欺诈;大数据;识别模型

1引言

近年来,由于电信欺诈事件频发,工信部要求“各电信企业要进一步强化技术能力建设,利用大数据等技术手段,对漫游到重点治理地区的诈骗电话号码要及时依法依规处置”。然而目前大多数运营商的电信欺诈治理能力还存在较多的问题,主要有:(1)系统能力有限,算法更新慢,诈骗行为多变,靠人工修正算法无法精确分析诈骗号码,需进一步提升反诈能力;(2)各地市公司分散建设,不仅造成重复建设,还存在网络安全风险,造成一定敏感数据传送风险,筛查漫出诈骗号码时关键网元如HSS的CPU负荷提升10%-20%,存在网络运行安全风险;(3)反诈准确性急需提升,封堵疑似诈骗号码存在误封正常用户的情况,造成用户投诉,需要提升封堵准确度;(4)分析数据存在时延高、处理时间长的问题,分析结果只能起到事后防控的作用。为了有效拦截电信欺诈行为,本文基于运营商大数据能力,设计了一套反欺诈平台。该平台在技术层面实现了准实时数据分析、多种欺诈场景识别模型等功能,在管理层面实现了分地市管理、数据可视化呈现、涉嫌违规号码自动处置、投诉查证等功能。

2关键技术

(1)利用流式计算框架实现欺诈行为准实时判别。大多数反欺诈系统通过日报表分析识别通信欺诈号码。这种模式的防控系统需要待T+1日数据出来后,才能够识别T日发生的欺诈行为,存在监测时延高、处理时间长的问题。很多不法分子利用时间差,在入网当日内就完成大量欺诈呼叫行为,并弃卡转移诈骗渠道。为了解决这个问题,智能反欺诈平台综合了批处理、流式计算两种大数据技术特点,实现了系统的低时延(每5分钟做一次分析)、高实时、长周期、数据量大、高复杂度(实现不同算法规则的识别)等目标。实时数据通过kafka集群存放,并由Sparkstreaming消费kafka的数据[1],对每5分钟的切片数据进行留存。分析系统对切片时间内发生的全量通信行为进行欺诈判别分析,实时数据主要包括O域mc、s1-mme、s6a、cd等原始信令数据。离线数据通过读取Hadoop集群[2],利用MapReduce框架分析系统每日针对高危客户进行判别[3],辅助欺诈行为识别。离线数据包括O域网络信令、B域客户信息、话单等。数据处理架构如图1所示。(2)多种场景下的欺诈电话识别模型。目前语音欺诈具有多种场景类型,如响一声、身份冒充类、改号诈骗以及虚假理财类等诈骗。改号诈骗又具体分为国际号诈骗、仿冒公检法诈骗、仿冒运营商诈骗、仿冒银行诈骗、仿冒客服诈骗等,如表1所示。因此本文需要针对不同的欺诈类型场景分别建模识别。在进行模型识别时,应根据不同的诈骗场景选取相应的特征变量入模训练,如表2所示。模型建设将运用到决策树、随机森林、逻辑回归、LightGBM等分类算法[4-7],以及K-Means等聚类算法[8],如表3所示。诈骗类型通话次数通话时长通话时刻分布联系人个数联系地个数主叫率回拨率(3)异常数据监测体系。利用专家规则,针对高危异常数据进行实时监测,包括如下几个方面:语音省际漫出诈骗号码识别模型,分析预测发现可能被诈骗团伙利用在异地发起外呼诈骗的本省号码;本地语音诈骗号码识别模型,分析预测发现可能被诈骗团伙利用在本地发起异常呼叫诈骗的本省号码;本地猫池短信诈骗号码识别模型,诈骗分子批量购卡后,部分诈骗分子会保持每张号码卡相似的通话特征,较为规律,时机成熟时出现爆发式的呼出行为;诈骗高危地识别模型数据,诈骗分子往往在同一地点进行拨打电话,一般是团伙作案成聚集趋势,所以会出现同一个位置下诈骗呼叫频繁拨出的情况,分析举报号码通话位置特征,识别监测高危地区位置异常号码;用户交往圈模型,交际圈模型使用到社交网络算法分析引擎,通过分析引擎建立一个异常用户的社交图谱,用来判定一个用户的通信行为是否超出其正常行为,结合话单、短信、客户基本属性等数据准确分析检出异常诈骗呼叫行为,识别异常用户号码社交网络群体,监控对应异常号码;异常入网模型,从诈骗分子的历史通话频次、天数、被叫号码离散度等维度,分析诈骗分子在不同渠道、开卡时间的大数据通信行为,建立诈骗号码的异常通信行为模型。

3模块开发

3.1业务架构设计。反欺诈系统包括大数据综合分析子系统、诈骗处理子系统、综合管理子系统等,如图2所示。3.2大数据综合分析子系统。大数据综合分析子系统包括模型构建模块、知识库模块、数据存储模块、数据处理模块等,如图3所示。模型构建模块负责各类诈骗电话行为分析建模、各类新型电话诈骗行为分析建模,并实现算法固化;负责各类建模算法训练评估并开发固化上线,针对上线算法运维跟踪,保持持续优化。知识库模块负责融合各类外部知识存储构建及其生命周期管理。数据存储模块负责对接运营商大数据系统,接收大数据系统推送的运营商全量用户通话信令数据、业务数据;负责构建分布式存储及计算框架,进行源数据预处理,面向上层分析建模提供对应建模算法所需呼叫行为特征。数据处理模块负责尽量提高源数据质量,使用容忍低质量数据算法等,目的是提高数据质量,使数据挖掘的过程更加有效,更加容易,同时也提高挖掘结果的质量。预处理工作任务是对原始话单数据进行检测,包括检查并剔除噪声数据、离群点异常数据,对缺失值、异常值以及不一致值等进行统一归零、补零、归一化等处理,以及重复话单挑单、缺失数据设置默认初始值处理等。3.3诈骗处理子系统。根据综合分析子系统识别出的号码欺诈危险等级以及判别的原因,对欺诈号码进行处置。系统具备通过BOSS接口进行号码关停、限制呼叫等相关处置能力。对于高危险等级的号码,能快速生成需踢网或强制关停的号码清单接口数据,由对应的接口进行踢网或关停处置。3.4综合管理子系统。综合业务管理子系统包括基础数据管理、模型管理、用户管理、数据呈现、数据统计等功能模块。数据呈现通过图形化的方式,输出方便用户了解相关欺诈的信息,包含且不局限于:展示受害用户区域分布,以及仿冒诈骗类型占比情况、诈骗源区域分布、诈骗电话态势分析、疑似受骗实时监测、诈骗电话监测日历、入网渠道/工具集中性态势分析等。基础数据管理包括:高危imei库管理、黑名单号码管理、白名单管理、受害用户管理、12321举报库管理、公安举报号码管理等。3.5数据呈现子系统。智能反欺诈系统作为一个生产运营的管理平台,需要将电信欺诈行为、地域、发展态势通过可视化及报表统计的方式展现出来。具体应包括:受害用户区域分布、诈骗类型占比情况、诈骗来源区域分布、诈骗数量态势呈现、入网渠道集中性态势分析、欺诈号码入网证件来源地分析、关停投诉报表分析等。

4功能效果

自反诈骗平台上线以来,总体识别准确率在90%以上,减少了误判客户投诉,显著降低了欺诈投诉率,有效打击了电信欺诈犯罪,取得了良好的社会效果。由于该系统实现了分钟级的识别和关停,使得罪犯无法充分利用每张电话卡的通信价值,大幅提升了实施诈骗的成本,让罪犯付出了不少的经济代价,有效打击了电信诈骗罪犯的嚣张气焰,有效遏制了电信欺诈犯罪发展的态势,有效减少了群众的损失。5结束语本文提出的智能反欺诈系统是在运营商数据能力及信息安全管理经验的基础上搭建起来的。该系统创新性地应用了大数据流式计算,积累了大量不同业务场景下的欺诈识别模型,搭建了综合分析、欺诈电话处理、数据呈现及基础业务管理等模块,有效解决了过去诈骗行为分析滞后、识别业务场景低、误判率高、人工运营成本高等问题,支撑了运营商信息安全日常运营管理工作。该系统实用性强、投入成本较低,具备在电信欺诈领域广泛推广的条件。

参考文献

[1]ZAHARIAM,DAST,LIH,etal.Discretizedstreams:anefficientandfaulttolerantmodelforstreamprocessingonlargeclusters.HotCloud,2012(12):10

[2]SHVACHKOK,KUANGH,RADIAS,etal.TheHadoopdistributedfilesystem//2010IEEE26thSymposiumonMassStorageSystemsandTechnologies(MSST),InclineVillage,USA,2010:1-10

[3]DEANJ,GHEMAWATS.MapReduce:simplifieddataprocessingonlargeclusters.CommunicationsoftheACM,2008,51(1):107-113[4]QUINLANJR.Inductionofdecisiontrees.MachineLearning,1986,1(1):81-106

[5]董师师,黄哲学.随机森林理论浅析.集成技术,2013,002(001):1-7[6]王锡国.逻辑回归算法的研究与应用.科技研究,2014,000(005):575

[7]马晓君,沙靖岚,牛雪琪.基于LightGBM算法的P2P项目信用评级模型的设计及应用.数量经济技术经济研究,2018,35(05):145-161

[8]张建辉.K-means聚类算法研究及应用[硕士学位论文].武汉理工大学,武汉,2007

作者:谢振锋 单位:中国移动通信集团福建有限公司信息技术部

上一篇:职业学校立体化教材的开发与创新 下一篇:网络安全协议在计算机通信技术的应用