电信运营系统的数据挖掘研究

时间:2022-06-18 03:16:09

电信运营系统的数据挖掘研究

摘要:电信企业为了在日趋激烈的市场竞争中取得优势,需要建立自己的数据仓库,利用数据挖掘技术对现有的客户数据进行分析研究。洞察力营销(Insight Driven Marketing,IDM)是一个应用数据和技术,帮助企业构建更个性化、更高利润的市场营销活动的过程。福州市电信公司作为IDM项目的试点单位,建立了一套IDM客户洞察系统,以满足项目的数据挖掘需求。

项目以福州5万商客为目标对象进行了数据挖掘的研究,通过IDM客户洞察系统对数据进行采集处理,挖掘分析,最终形成9个战略分群。

关键词:数据挖掘;ETL;宽表;分群;K-means算法

中图分类号:TP

文献标识码:A

文章编号:1672-3198(2010)15-0318-03

1 绪论

课题来源于中国电信集团公司“洞察力营销福州试点项目”。为了更好地应用洞察力营销方法,中国电信集团公司聘请美国埃森哲咨询公司对IDM方法给予技术咨询,提供方案进行试点。福州公司作为其中的一个主要试点单位,需要建立一个数据分析挖掘系统,将各类分散在营业支撑系统(Business Supporting System,BSS)、计费系统、省中心计费系统、智能网系统、10000号系统、112系统等多个系统的数据快速采集起来,建立统一的客户视图来满足数据挖掘的需要,实现对数据的分析挖掘,将电信客户进行分群,进行针对性营销。

根据埃森哲公司提供的客户洞察方案,试点期间以福州商业客户为对象进行客户分群,同时完成系统的建设。

2 客户洞察系统设计

2.1 客户洞察系统的需求分析

2.1.1 数据源分析

通过福州本地网内各个系统分析发现,对于福州电信来说,需要从BSS系统、计费系统、省中心计费系统、智能网系统、10000号系统、112系统等多个来源获得。但这些系统有的又相对独立,数据分散性造成共享缺少统一的标准,所涉及到的同样的客户信息可能存在不同的系统中,有些客户信息只在一个系统中,需要将这些客户信息进行归纳提取出来,再将这些提取出来的数据按照逻辑关系进行关联和存储。

2.1.2 系统需求分析

根据业务部门要求,系统需要满足以下几点。

(1)系统应提供良好的安全性和可靠性策略。

(2)系统能与各类外部系统建立接口,每日和每月定期获取接口数据。

(3)系统数据流处理能力必须满足在一周内完成数据从接口到中间处理数据转换和存储。

(4)系统应能满足并发大数据量处理的要求,具有快速的并发用户查询速度,并发控制稳定可靠,支持多线程或多进程。

(5)系统必须提供对外查询接口和界面。

(6)考虑数据冗余,和各类索引的建立,存储空间应满足2年半的数据存储。

2.2 平台架构设计

根据福州局IDM客户洞察系统一期的建设要求,并结合以上构建数据挖掘系统所需的几个主要功能模块,对系统平台架构进行设计,如图1所示,系统分为三大部分:数据源、分析系统/平台、报告和挖掘分析系统。

图1 IDM客户洞察系统架构

2.3 功能模块设计

IDM客户洞察系统作为一个完整的系统,主要包括的功能有:数据源的采集、数据的ETL过程及统一客户视图建立、宽表生成、客户分群、分群结果分析、结果数据输出营销、营销效果评估、系统管理、对外接口等。因此经过研究分析,系统分成四个大的功能模块,各模块的主要功能如下。

(1)接口程序模块:属于数据采集层,负责将外系统的数据源导入试点数据库。

(2)数据处理模块:属于数据分析层,负责将试点数据进行ETL的清洗、过滤、整合、归并、生成宽表。

(3)客户分群模块:属于数据分析层,利用数据挖掘工具对宽表数据进行客户分群。

(4)结果分析、特征刻画模块:属于数据展示层,进行分群数据相关信息的提取,对分群后数据的分析刻画展示。

2.4 数据仓库结构设计

2.4.1 统一客户视图设计

由于客户的变量在各系统间不能实现自动关联,需要通过对这些数据类型整理,并按照一定的数据规则将这种关联建立起来,将这些数据类型变量信息统一挂靠到每个客户下面,对数据库处理而言,就需要一个客户ID,代表系统中唯一的标识,将反映客户信息的变量都索引表现出来。这种客户ID将客户所有的相关信息,通过挂靠的众多变量反映出来,就可以在系统中展现每一个客户完整情况,将它定义为统一客户视图。

凡是客户的并且与运营商接触的历史记录都可以通过客户ID为索引主键进行存储和展示,一旦查找到客户ID就可以将客户的电话号码以及使用的相关电信产品等信息都可以展示出来。

2.4.2 宽表设计

(1)宽表设计变量的分类。宽表(WIDE TABLE)就是实现统一客户视图模型,用于数据挖掘的一种数据结构,将客户相关的信息都记录在一行上,以便进行分析。其特征每个客户一条记录,每一条记录是客户属性的一个“扁平化”表现,一条记录中包含了很多跟客户相关联的客户属性作为变量名。宽表是以每个客户ID为中心的,汇集了与分析相关的所有信息,有时候变量可以达到上百、上千个。

宽表的记录由许多字段(变量)组成,而每个字段都反映了客户信息的某个方面(例如拨打异网的情况),宽表就是将这些不同类型的数据定义成众多字段变量,而且这些字段也是不断进行扩充的,这些变量不仅为分群提供了聚类的特征,而且通过业务语言翻译出来为分群后的营销策略提供重要的数据依据。

分群是依据最共有的特征将众多客户聚类到一起。由于宽表中字段变量非常多,若对每个字段都进行输入聚类,显然是不合适。研究发现宽表中的一些变量对展示客户的特征特别明显,经过归类,可分为11类,分别是(1)平均费用;(2)平均时长;(3)平均次数;(4)去向;(5)时段;(6)趋势;(7)客户信息;(8)产品信息;(9)付费信息;(10)客户交互信息;(11)类型分布比例。

这些字段变量反映了宽表设计维度包括的字段类型,这些变量可以通过客户ID在各数据源中提取到,将客户各类的数据源,对应11个维度类型按一定的规则进行ETL,这样就生成包含几百个变量的宽表。

(2)宽表变量V_B分群研究。输入变量的设计直接影响分群模型结果的好坏,因此,通过仔细对输入变量进行了研究后发现,无论是次数、时长等变量,还是费用、产品拥有情况等变量,这些变量跟客户所消费的产品价值和使用行为密不可分。如果把这些分类合并成价值(产生直接费用,Value)和行为(影响话务量变化的习惯特征,Behave)两大类,对分群模型的建立将会是非常清晰和直观的。同时,行为和价值这两个因果变量,有很强的关联性。消费行为是产品使用费用的直接原因,消费行为又反映了客户的心理需求和使用习惯,价值又是客户对电信的贡献程度。按照客户的价值和行为为出发点对客户进行分群,分出的客户群将对福州电信今后的市场营销有直接指导意义。

通过价值和行为变量的确定,可以形成这种交叉的聚类。在采用挖掘软件回写数据的时候,加入V_code 和B_code群号,这是价值和行为衍生的分群类别的标识变量,为客户分在哪个群组中提供了重要的保证。

因此,宽表变量集汇总为价值和行为两大类,确定了数据挖掘软件的最终输入变量就是价值和行为为聚类维度。只要是与客户消费行为和贡献价值有关的数据,都需要提取到宽表中。经过以上的分析设计,宽表最终的数据结构如表1所示。

表1 宽表数据结构示例

客户编号在网时长月平均费用…国内长途时长催缴次数…客户年龄客户性别…B分群得分V分群得分…

12345435…102…23男…54…

78912116…50…45男…71…

…………………………………

客户ID价值字段行为字段人口统计学模型记分

3 数据挖掘的关键技术

3.1 数据挖掘的K-means算法

本次数据挖掘主要解决的是对电信客户分群这样一个具体问题,而且在分群的时候并不是按照人为制定的规范去分类,我们希望得到的是按照客户内在具有的未知的、潜在的特性去分类。这就是一个典型的聚类问题。

所谓聚类,就是按照事物的某些属性聚集成类,使得类间的相似性尽可能的大。聚类算法主要种类有划分方法、层次方法、密度方法、网格方法、K一最近邻法、模型方法等。多数电信行业软件针对单因素客户细分都使用划分方法,部分使用了K-MEANS、模型方法做综合细分。

在这么多的聚类算法中,我们选择K一means算法来解决我们的问题。主要因为这种算法是解决聚类问题的一种经典算法,它的主要优点是算法简单、快速而且能有效地处理大型数据库。尽管它也有一些缺点,但是对于电信这样的数据密集型企业,能否有效的处理大型数据库是我们关心的重点。像前面提到的基于密度的聚类算法虽然也可以实现聚类,但当数据量增大时,它就不能较好的完成聚类。

3.2 应用KXEN软件进行商客分群建模

本次对商客的分群建模共涉及福州5万多商业客户,8万多的号线资源,源数据经过ETL过滤后,生成商客的宽表数据,共296个字段,经过前期对KXEN软件的使用,我们发现并非将所有的变量都按V_B进行分类后投入数据挖掘软件进行分群就可以得到较好的结果,需要对变量有所取舍,减少干扰。因此,我们重新过滤了所有的宽表变量,将它们分为三类,价值V变量58个,行为B变量89个和辅助E变量148个,还有一个客户编码作为主键。

4 数据挖掘结果分析评估

关于商业客户的数据挖掘结果。本次对福州5万商业客户采用KXEN软件进行分群,将58个价值变量分为了7类,89个行为变量分为了9类,通过V_B的二维交叉组合,形成了福州商客的V-B矩阵图,如图2福州商客分群矩阵图。

图2 福州商客分群矩阵图

从该图可以看出每个客户都能用一个二维的坐标来形容或确定,就形成了交叉V-B矩阵。按照这种行为和价值组合的相似性,将相关点进行合并归类,形成最终分群结果,所分的群用红色框标识出来并起一个名称,例如:SS1(Strategic Segmentation 1)称为战略分群1。具体分群结果和描述上图中也已给出,如SS1被定义为高值高危企业。

根据以上对福州商客分群矩阵图的分析,我们可以看到,在所形成的9个分群中,客户群中的客户之间有很强的相似性,而客户群和客户群之间的区别也非常明显。更重要的是,公司对不同的客户群能够采取不同的措施进行营销。因此我们可以确认本次的分群结果是有效的,并有实际的指导意义和可操作性。

5 结语

根据合理的客户细分策略,为客户提供有针对性的个性化服务是当前每个电信运营商都十分重视的工作,在以客户洞察力营销核心方法论的指导下,我们坚信,随着数据挖掘技术的普及与提高,建立在数据挖掘技术基础上的针对性市场营销策略必将成为电信企业提升企业品牌和核心竞争力的重要筹码。

参考文献

[1]郭道宁,舒华英.数据挖掘在电信运营市场决策支持中的应用[J].北京邮电大学学报(社会科学版),2004,(2):15-16.

[2]Ralambondrainy H.A Conceptual Version of the k-Means Algorithm,Pattern recognition Lettes,16,1147-1157.

[3]吴志勇,吴跃.数据挖掘在电信业中的应用研究[J].计算机应用,2005,3(4):20-21.

[4]D.Margineantu,S.Bay,P.Chan,T.Lane.Data Mining Standards,Services and Platforms 2005 Workshop Report.ACM SIGKDD December 2005,7(2):137.

上一篇:BP神经网络算法在个性化搜索排名中的应用 下一篇:微支付的最新应用研究