基于R语言的运营商4G用户流失预警模型研究

时间:2022-08-29 12:23:02

基于R语言的运营商4G用户流失预警模型研究

【摘 要】为了减少运营商核心资源的流失,降低4G用户流失率,通过采用与大数据技术紧密结合的R语言技术,从消费异动、竞争对手影响、不正常沉默和长期异地漫游等维度设计建模指标,基于逻辑回归分析搭建了4G用户流失预警模型,并通过卡方检验和ROC分析等方法验证了模型的正确性。该模型预测效果明显,可以很好地对4G用户的状态进行精准定位,以达到对4G用户的保有。

【关键词】4G用户 流失预警模型 R语言 逻辑回归

1 引言

随着数据通信与多媒体业务的发展,第四代移动通信(4G)快速兴起,为移动通信用户提供了“高速对话”,通信运营商全业务经营已成趋势,这也加剧了市场竞争,为了获得更多的市场占有率,运营商想方设法降低用户流失率,以减少用户离网现象的发生。研究表明,若一个公司的用户流失率降低5%,则利润将会增加25%~85%[1]。企业往往获得一位新用户的费用是比较高的,但是挽留一位用户有时仅仅只需要一个电话或者策略[2]。因此,运营商需对用户属性进行精准定位,试图挽留存在流失倾向的用户资源[3]。4G用户资源俨然已成为运营商核心资源,如何通过建立数据挖掘模型进行4G用户流失预警,对有流失倾向的用户进行精准定位是当前重要课题。本文通过对用户流失历史情况进行统计分析,归纳出用户流失的共有特性,设计建模指标,搭建4G用户流失预警模型并提出相应的挽留政策,最终目的是降低用户流失率[4]。

2 建模技术及模型选择

2.1 建模技术选择

R语言一直是统计学家的经典工具,它是一种开源软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R语言具有丰富的统计方法,拥有强大的统计功能,是一套完整的数据处理、计算和制图软件系统,提供数学计算的环境,用户能够灵活地在其中进行数据分析,甚至创造出符合需要的新的统计计算方法。

此外,大数据处理是潮流和趋势。当前出现了以Hadoop家族为代表的用于开发和运行处理大规模数据的软件平台,重点是全量数据分析,而R语言的重点则是样本数据分析,这两种技术结合在一起刚好取长补短。因此,本文采用R语言作为数据建模语言,后续的建模过程均基于R语言开展。

2.2 模型选择

用户流失即企业原有用户不想或不再使用该企业的服务[5]。用户流失的原因多种多样,如:Kenveney通过对消费品用户流失原因进行分析,将用户流失类型分为价格流失型、产品流失型、服务流失型、技术流失型、便利流失型等;Madden、Savage和Coble以澳大利亚ISP市场不同的移动用户消费行为为研究对象,提出定价、不方便性、核心服务失败、服务接触失败、服务失败的反应、竞争对手、道德问题等因素影响用户流失意愿[6]。

逻辑回归分析方法[7]是数据挖掘技术中的分类方法,也是基于统计理论的识别技术。其主要目的是进行分类,同时预估事件发生的概率,优点是能处理二值因变量,不需满足其他多变量技术所要求的假设,可进行模型精确度和拟合优度的检验以便评估模型的预测力等。

本文采用了逻辑回归技术来搭建4G用户流失预警模型。从运营商的角度来看,用户状态可分为在网和离网。其中,在网为依然使用运营商为其提供的服务;离网为不再使用,也即是流失。判断用户状态属于一个典型的二分类变量问题时,可采用逻辑回归分析来处理。逻辑回归模型公式如下[8]:

(1)

由于辑回归模型是非线性模型,所以就少了像线性模型那样的约束,如自变量与因变量需具有线性关系等。其实逻辑回归本质上是线性回归的一种,只是逻辑回归中的因变量是未知的类别变量取某一个值的概率[9]。逻辑回归是一个被逻辑方程归一化后的线性回归,事实上以上模型公式只需进行log it变换即可变换成线性形式,公式如下:

log it (2)

4G用户流失预警模型设计流程如图1所示:

3 用户流失预警模型构建

3.1 分析思路

本文将搭建4G用户流失预警模型,其研究过程主要实现以下目标:

(1)定义4G用户的消费异动、不正常沉默、呼转竞争对手、异地漫游这4类流失类型的口径,完成建模指标的设计;

(2)搭建4G用户流失预警模型;

(3)对模型进行评估验证。

建模过程:该业务问题是一个二元预测问题(是否流失),并且与之相关的数据大都是数值型的数据,适合采用逻辑回归的方法来建模。

3.2 建模指标设计与分析

通过对已流失4G用户进行观察、统计和分析,发现在用户流失之前可能会出现以下方面的情况,可围绕这些情况进行建模指标的选取:

(1)消费异动:与历史消费水平相比,突然出现消费异常波动,一般通信行业选取ARPU(Average Revenue Per User,每用户平均收入)值作为衡量用户消费水平的指标,因此设计建模指标包括近三个月ARPU标准差、(本月ARPU-前三均值)/前三均值;

(2)竞争对手影响:用户日常联系的主要通信圈子外网占比增加,网外通话占比增加,受竞争对手客服的影响或者有呼转到竞争对手的情况,因此设计建模指标包括本月网内通话次数占比、本月网外通话时长占比、本月网外主叫次数占比、本月竞争对手客服主被叫通话次数、本月呼转竞争对手次数;

(3)不正常沉默:通信行为出现突然减少乃至不正常沉默,从通话时长、通话次数和4G流量的使用情况综合考量,因此设计建模指标包括(本月通话时长-前三均值)/前三均值、最近三个月MOU(Minutes Of Usage,平均每户每月通话时间)值标准差、(本月通话次数-前三均值)/前三均值、前三月通话次数均值/本月通话次数、最近三个月联系次数标准差、本月4G流量;

(4)长期异地漫游:若用户近期经常在异地漫游,则有可能该用户主要生活在异地,并有可能换号,因此设计建模指标包括(本月异地漫游通话次数/本月通话总次数)-(异地漫游通话次数前三均值/通话总次数前三均值)、(本月异地漫游通话次数/本月通话总次数)-(上月异地漫游通话次数/上月通话总次数)、本月异地漫游通话次数、上月异地漫游通话次数;

上一篇:初二女生作文《愿你》走红:若是你,怎么写 ? 下一篇:景区应强本而节用