基于logistic回归模型的大数据精准营销应用

时间:2022-07-02 07:42:49

基于logistic回归模型的大数据精准营销应用

摘 要:随着移动互联网的发展,电信运营商的传统语音和短信收入快速下降,同时流量价值也不断向云端结合的OTT服务商转移,挤压运营商收入增长空间。文章通过研究电信运营商大数据能力优势及精准营销需求,基于logistic回归模型,提出了电信运营商流量经营的大数据精准营销应用,有效提升客户的满意度,快速提高运营商效益。

关键词:logistic回归模型;大数据应用;运营商;流量经营

随着移动互联网的发展,流量已成为客户的核心需求,能否顺利从以“话务量”为中心的经营转向“流量经营”转型,能否通过流量经营提升公司的价值,已成为运营商战略转型的关键。移动互联网时代的流量经营与语音和宽带业务的经营有很大不同:客户使用的终端多样性,流量承载的内容性丰富,客户流量使用行为的数据的复杂性,仅通过传统的“暴力营销”极易引起客户的反感和投诉。基于logistic回归模型的大数据精准营销应用将有效解决提升客户满意度及运营商效益提升问题。

1 基于logistic回归模型的大数据精准营销应用的解决方案

1.1 基本思路

根据用户的特征,判别哪些是诱发用户订购流量包的因素,使用logistic回归分析出其影响权重,从而预测哪些用户是潜在的订购用户。

1.2 logistic模型

根据样本数据可以通过最似然估计法计算出模型参数。

1.3 抽取数据

抽取五大类11子项数据作为分析颗粒度。

1.4 数据描述

本模型使用部分流量包订购数据,它有94455个样本观测,每个观测包括12个变量:

用户号码(phone)、使用流量(current_flow)、套餐类型(taocan_type)、终端类型(os)、用户类型(utype)、订购状态(order)、套餐消耗比(main_rate)、日均使用流量(avg_day_flow)、闲时消耗比(free_rate)、活跃度(day_log_count)、APP个数(client_count)和潜力值(big_client_pv)。

1.4.1 观测样本套餐划分情况:

3G套餐包括A/B/C/iPhone/wopai,占比为36%;2G套餐根据流量分为流量卡(占比28%)和非流量卡(占比35%)。

1.4.2 观测样本终端情况

Android操作系统用户占比达51%,iOS操作系统用户占比为9%。

1.4.3观测样本流量使用情况

把观测样本用户使用流量划分成8个区间,对流量需求旺盛用户开展流量包营销非常必要。(图3)

1.4.4 观测样本流量饱和度情况

极大部分用户都出现了流量超套行为,占一半用户以上,进行合适的流量包推送很在必要。(图4)

2 基于logistic回归模型的大数据精准营销应用的模型建立

2.1 数据

随机抽取80%的数据(75564条)建立一个logistic模型,再用余下20%的数据(18891条)进行预测。

2.2 方法

多元logistic模型,使用stepwise选择变量。

2.3 变量

涉及多个分类变量-用户类型、终端类型和套餐类型,设置哑变量处理,并设置相应的参照水平-3G用户、Andriod终端和A套餐。

2.4 影响因素参数估计

2.4.1 整体显著性检验

假设:H0:b1=b2=…=bn=0;H1:b1,b2,…bn不全为0。

检验的结果如下所示:从表4中可以看到p-value

2.4.2 参数估计

从表5中可以看到9个因素的回归系数都通过了Wald Chi-Square检验,说明各系数在统计上是显著的。

2.5 模型结论

闲时消耗率、终端类型、套餐类型为此模型中诱发订购行为的最重要的三个因素。(表6)

2.6 参数意义

回归的系数给出了概率的对数变化一个单位对应的预测变量的增加。OR比是取幂的系数,可以解释为乘法概率增加一单位预测变量的变化。3G用户相对于2G用户:订购概率的对数增加1.7443;订购的概率相对不订购的概率增加0.175。Current_flow增加1M:订购概率的对数增加0.00116;订购的概率相对不订购的概率增加1.001。(表7)

2.7 模型描述

预测模型:

3 基于logistic回归模型的大数据精准营销应用监测及实施案例

(1)对 18891个用户数据进行预测,ROC曲线如下:

・订购覆盖率Sensitivity=正确预测到的订购数/实际订购总数

・未订覆盖率Specificity=正确预测到的未订数/实际未订总数

・ROC曲线是在不同阈值下,Sensitivity和1-Specificity 的组合。随着阈值的减小(更多的用户就会被认为订购),Sensitivity和1-Specificity 也相应增加。

・ROC曲线与45度线偏离越大,AUC值越大,模型的效果就越好。

・阈值e=0.5时, Sensitivity=75.24%

Specificity=87.14%

设检验数据中订购的比率为p,预测结果中订购的比率为Depth,命中率PV+=正确预测到的订购数/预测订购总数,提升值Lift=PV+/p,Lift图表示不同阈值下Lift和Depth的轨迹。用来衡量:与不利用模型相比,模型的预测能力“变好”了多少。Lift值越大,模型的运行结果越好。

图5,在depth为1之前,lift一直保持较高的(大于1的)数值,表明此模型分类效果良好。

(2)预测检验-混淆矩阵:

对18891个用户数据进行预测,设e=0.5,结果如下:

4 结束语

该模型的应用极大提高了目标用户营销成功率,较运用前营销成功率提升50%,用户投诉率降低60%,效果显著。基于logistic回归模型大数据分析,匹配流量用户特征,科学分析用户需求点,达到公司与用户双赢。

参考文献

[1]安・A.奥康奈尔,定序因变量的logistic回归模型/格致方法定量研究系列[M].北京:清华大学出版社,2009.

[2](美)梅纳德.应用logistic回归分析(第二版)[M].李俊秀,译.格致出版社,2012.

[3]顾芳,刘旭峰,左超.大数据背景下运营商移动互联网发展策略研究[J].邮电设计技术,2012.

[4]童晓渝,张云勇,房秉毅,等.大数据时代电信运营商的机遇[J].通信信息技术,2013.

上一篇:模块化工业机器人减速器模块的编码研究 下一篇:不同地形条件下隧道洞口仰坡的地震动力响应