基于ID3算法的航空客户流失模型

时间:2022-08-29 11:23:08

基于ID3算法的航空客户流失模型

[摘 要]本文主要研究决策树的ID3算法在航空客户流失模型中的应用问题。通过改进的RFM模型,对原始客户数据进行划分;通过二八规则,找出其中20%具有较高价值的客户,对此优质客户数据进行流失预测;通过ID3算法对根属性以及临界值的确定,可以建立客户流失模型。因为临界区间的确定,此模型具有较高的预测准确性。

[关键词]ID3算法 决策树 K-means 客户流失

[中图分类号] O29 [文献标识码] A [文章编号] 2095-3437(2013)23-0070-03

一、引言

很多人都听说过马来西亚的亚洲航空、美国的西南航空等公司的大名。这些公司成功的秘诀就是擅于提高上座率。为了争到客源,有些公司甚至提出了与长途巴士进行价格竞争的口号。如此看来,国内航空公司并不是把其它航空公司当作主要竞争对象,主要对手应当是火车或长途汽车。适当的低票价,将使航空资源得到充分利用。如果空座率居高不下,哪怕票价卖得很高,本身就已经出现了资源性亏损。[1]

本题就是期望从航空公司最感兴趣的主题——流失预测、客户细分和客户价值评估等方面,通过数据挖掘技术,实现提升航空客运的上座率目标。数据集来自。[1]

19世纪意大利经济学家帕雷托(PARETO)发现:80%的财富掌握在20%的人手中。若降低5%的顾客损失率,就能使企业提高25%以上的利润。本文将通过改进的RFM模型,结合K-means聚类方法挖掘出高价值客户,并对高价值的客户进行分类。对那些较高价值的客户通过ID3算法进行细分,确定可能流失的客户,为航空公司提供参考性数据,使其可以及时制定相应的策略来挽留高价值易流失的客户,从而降低空座率。

本文结构为:先对数据进行预处理,然后应用改进的RFM模型进行K-means聚类,得到较高价值的客户数据,对其2/3数据基于ID3算法迭代选择根属性从而得到流失模型,模型确定便可对流失客户预测,从而得到流失原因分析及对策。

二、数据预处理

(一)数据清洗

数据清洗[2](DataCleaning)的目的是检测和消除数据中存在的错误和不一致,以提高数据的质量。[3]

数据清洗的方法必须满足以下几个要求:不论对于单数据源还是多数据源,都要检测和消除数据中所有主要的错误和不一致;应尽可能减少人工干预和用户的编码工作量,且易于扩展到其它数据源;不应该是孤立的,应该是和基于元数据的数据模式转换相结合;有相应的描述语言来描述数据转换和数据清洗的过程和操作,所有这些过程和操作都应在一个统一的框架下完成;最后,需要有内嵌的工作流控制,便于以可靠、有效的方式执行多数据源和大数据集的所有数据转换步骤。[4]

(二)属性约简

经过离散化后的数据集存在一些对于问题的决策没有影响的冗余属性,而且有些属性之间存在很强的依赖关系。为了提高数据分析算法的效率,必须先对数据集进行属性约简,[5]找出一个决策能力与原数据集相同的最小属性集。

确定最小属性集的方法为:首先在候选集中确定冗余属性,并在属性集中将之删除,在新的属性集中再确定依赖属性并在属性集中将之删除。

(三)min-max规范化

min-max规范化[6]方法是对原始数据进行线性变换。设minA和maxA分别为属性A的最小值和最大值,将A的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x′,本题需要指标正向化:如果属性本来是正向的,其公式为:x′(x-minA)/(maxA-minA),否则:x′(minA-x)/(maxA-minA)

三、模型

详细AHP算法步骤请看;[7]详细K-means算法见;[8]详细ID3算法见, [9]D3 选择分裂属性的标准见[10]。

(一)改进的RFM模型

根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:[11]1.最近一次消费(Recency);2.消费频率(Frequency);3.消费金额(Monetary)。

原模型最近一次消费为金额,而数据集里面涉及的是最后一次消费至今的时间,对此做出改变。而最后一次消费时间是越小越好,我们利用min-max规范化将其转化为正向指标。利用AHP得到每个属性的权重,进而可以得到由三个属性组成的终身价值指标,最后区分出较高价值的客户。

客户终身价值[12]计算公式如下:

C■■■■=wRC■■■■+wFC■■■■+wMC■■■■,其中wR,wF,wM分别为三个属性的权值。

(二)基于ID3的客户流失模型

根据二八规则,为了提高航空的上座率,本文并不否认价值客户的潜力,但最有效的方法是防止高价值客户的流失。从RFM模型中得到的较高价值的客户作为客户流失模型的基础数据。传统的做法是直接对数据进行聚类分析,再从分类里得到流失人群的属性特征,定义出区间来进行后续预测,但此方法有较大的不足,无法确定属性之间的重要关系。

本文将应用决策树的ID3算法,直接对属性进行区间定义,属性间的关系具有区分度,并非同样重要。取出较高价值客户的数据进行分析,细分客户群体,从而得到高价值易流失的客户,然后针对此人群进行相应策略挽留,将会提高上座率,从而提升公司竞争力。

四、仿真

(一)数据预处理

1.数据清理

处理前数据为62988条记录,63个属性。对拥有非法值的条目进行处理,如:拥有空值或非法值(#)进行删除,缺省值进行填充,同意转换(广州市转为广州)等,处理后数据条目为56308条记录。

2.属性简约

利用属性约简原理,对63个属性进行分析,去除不相关、弱相关和冗余的属性,相互依赖的属性取其一,多个同种作用但是不同作用时间(8个季度)的属性合并起来,最后得到12个最相关的属性(MEMBER_NO属性标记作用,不参与计算):(1)FLIGHT_COUNT;(2)Flight_Frequency_sum;(3)BASE_POINTS_SUM;(4)EXPENSE_SUM_YR_1_2;(5)AVG_FLIGHT_COUNT;(6) DAYS_FROM_BEGIN_TO_FIRST;(7)DAYS_FROM_LA

ST_TO_END;(8)AVG_FLIGHT_INTERVAL; (9)MAX_F

LIGHT_INTERVAL, (10)avg_discount;(11)Points_Sum;(12)Ration_L1Y_BPS)。其中Flight_Frequency_sum为自定义的每季度飞行的频数,如果该季度搭飞机次数不为0则记为1,否则为0;这个属性表征累计8季度的和;EXPENSE_SUM_YR_1_2表征2年的消费总额;编号与后续表格属性相互映射。

其中,Flight_Count,EXPENSE_SUM_YR_1_2,DAYS_

FROM_LAST_TO_END为改进RFM价值模型的基本属性。

3.数据变换

将数据进行归一化处理,并用min-max准则去标准化数据,使所有指标正向化,即数据越大表示价值越大或越不容易流失,有利于后续权重分析,从而得到排名。

(二)客户价值计算

选取出3个属性:最后一次消费至统计结束时的时间、消费总额和消费频率。如果单个客户类别的均值大于总均值,则给该指标一个向上的箭头“”标记,反之则用“”。

表1 RFM模型聚类结果

其中样本数:37100,为原始数据的2/3。

(三)顾客流失模型

传统的聚类方法得到聚类结果如下表,容易得到不同分类的属性特征,但是区分度很小,某一类会因为某一个属性而区分开,某一类又会因为其他属性而区分开。所以不能很好的诠释一个客户流失模型。

为此,我们采用决策树的ID3算法,此模型的数据从终身价值排名前三的类别3、4和5,所占总客户比例为18.7%(=(386+1668+4898)/37100),符合二八规则。这些客户为较高价值的客户,挽留这些人当中可能流失的客户对航空公司的上座率有正面的影响。对其进行细分,即得到易流失的客户为最需要挽留的客户。

表3 ID3算法选择根属性

其中,i为属性的信息量,e为属性的期望熵,g为属性的信息增益。

五、结论

(一)优点

区别于传统的数据挖掘模型,已有许多不同的简单的聚类分析方法。本文先通过改进的RFM模型,对原始客户数据进行划分;通过二八规则,找出其中20%的较高价值的客户,对此优质客户数据进行流失预测,试图通过ID3算法的对根属性以及临界值的确定来建立客户流失模型。因为临界区间的确定,此模型具有确定并且稳定的的预测结果。

模型树形的匹配规则简约而高效,适合大数据快速分层分析。

(二)缺点

模型临界值的确定需要更严密的调查分析,通过市场调研数据进一步来确定,而并非简单的实验测试或者模拟预测。

[ 参 考 文 献 ]

[1] 2013年第一届太普华南杯数据挖掘竞赛试题《航空客运信息挖掘》

[2] 孟坚.基于规则的交互式数据清洗技术[D].东南大学,2005.DOI:10.7666/d.y790473

[3] Rahm, Erhard, and Hong Hai Do. “Data cleaning: Problems and current approaches.” IEEE Data Engineering Bulletin 23.4 (2000): 3-13.

[4] Ohanekwu, Timothy Emenike. “A Pre and Post Data Warehouse Cleaning Technique.” Master Paper. Canada: Computer Science Department of University of Windsor 27 (2002).

[5] 常犁云,王国胤,吴渝等.一种基于Rough Set理论的属性约简及规则提取方法[J].软件学报,1999,10(11):1206-1211.

[6] 蔡维玲,陈东霞.数据规范化方法对K近邻分类器的影响[J].计算机工程,2010,36(22):175-177.DOI:10.3969/j.issn.1000-3428.2010.22.063.

[7] 徐晓敏.层次分析法的运用[J].统计与决策,2008(1):156-158.

[8] 毛嘉莉.聚类K-means算法及并行化研究[D].重庆大学,2003.DOI:10.7666/d.y704108.

[9] J.R.Quinlan.Induction of decision trees. Machine Learning,1986(1):81-106

[10] 毛聪莉.基于粗糙集的决策树学习算法研究[D].湖南:湖南大学硕士论文,2008

[11] 林盛,肖旭.基于RFM的电信客户市场细分方法[J].哈尔滨工业大学学报,2006(5):758-760.

[12] Liu, Duen-Ren, and Ya-Yueh Shih. “Integrating AHP and data mining for product recommendation based on customer lifetime value.” Information & Management42.3 (2005): 387-400.

上一篇:浅谈社会潮流影响艺术流变 下一篇:影响医学双语教学效果的因素分析