变精度粗糙集属性约简在电信行业中的应用

时间:2022-05-27 11:21:57

变精度粗糙集属性约简在电信行业中的应用

【摘 要】针对电信行业客户信息属性太多、处理方法少、效果差的现状,引入粗糙集理论预处理客户基础信息。并以核心客户离网预警模型为例,给出变精度粗糙集属性约简算法,筛选出模型关键变量,借助MATLAB工具结合逻辑回归理论确定变量权重,利用指标判别法计算客户离网概率,最终达到预警核心客户离网的目的。与常用的聚类分析法确定关键变量相比,模型查准率提高50%,这也证明了粗糙集理论在电信行业数据挖掘的可行性。

【关键词】属性约简 变精度粗糙集 核心客户 关键变量

中图分类号:TN929.5 文献标识码:A 文章编号:1006-1010(2013)-15-0067-03

1 研究背景

电信行业竞争日趋激烈,各运营商对核心客户这一重要利润点发起了激烈的竞争。核心客户离网预警模型的建模思路一般为:找出特征指标—建立模型—评估模型—应用模型—优化模型。从客户的基本类信息、行为类信息、消费信息等多种属性指标中选取特征指标是建模的第一步,在模型效果中起决定性作用。目前多采用统计知识或专家经验方法,但是方法少、成本高、效果差的问题仍然存在。

粗糙集理论是一种新的数据挖掘工具,用粗糙集理论的属性约简算法对样本信息进行预处理,主要是为了解决高维数据计算的复杂性和准确性问题,消除冗余和不相关的属性对计算过程和最终结果造成的影响。而变精度粗糙集属性约简则是在允许一定错误率下,根据需要灵活得到约简属性。本文将利用粗糙集理论知识,构造变精度粗糙集属性约简算法,为核心客户离网预警模型关键变量的选取提供一种新算法。

2 粗糙集相关概念

属性约简是粗糙集理论[1-4]的核心内容之一。属性约简从数学的角度考虑,就是有P维数据X=(x1,x2,…, xp),通过某种方法,得到新的数据X,k≤p,新的数据在某种评判标准下,最大限度地保留原始数据的特征。

模糊等价关系[5-8]:R是X上的模糊关系,则R是max-传递的,即

在实际运用中,往往称满足上述等价条件的模糊等价关系为等价关系。

β-下近似:设(X,R)是一近似空间,β∈(0.5,1],对于任一子集,A的β-下近似与β-上近似为:

称为变精度粗糙集,其中β为错误可接受错误分类率。

蕴含算子[4,9]:设和分别是[0,1]上的t-模与t-余模[9],定义如下两个算子:

3 变精度粗糙集属性约简的应用

3.1 算法介绍

(1)宽表数据量:6 000条记录(核心客户),包含1 500条离网用户和4 500条未离网用户。每个对象的条件属性(统计月份、用户品牌、消费波动、基本套餐费、呼叫异网客服电话、主被叫消费占比、投诉频次等相关指标)p个,决策属性(是否离网)1个。训练样本集要求为历史数据,且拥有明确的是否离网标签,目的是保证验证结果的准确性。

(2)时间窗口:3+1月,验证数据采用历史前三个月客户数据作为基础信息,第四个月用户是否离网为结果验证模型。如研究客户3、4、5月的通讯行为,利用模型预测用户6月份离网情况。

(3)运行环境:MATLAB

(4)建模过程:

1)利用变精度粗糙集属性约简选取关键指标;

2)基于关键指标,应用指标判别法建模;

3)输出模型结果。

第一步:粗糙集选取关键变量算法详情

1)计算所需用到的所有的模糊等价关系R和;

2),计算;

3)计算区分矩阵,并让;

4)判断是否存在约简。若存在,转入第5步;若不存在,输出“不存在约简”;

5)把区分矩阵中出现频率最大的属性加入Reduct中,并删除所有与Reduct交集非空的cij;

6)如果还有非空的cij,则返回第5步,直到所有的cij都为空集;

7)判断Reduct中是否有不必要属性,若有则删除;若无则转第8步;

8)得出约简Reduct。

其中,R为模糊等价关系;ak为条件属性;D为决策属性;Xi为样本量;α为变精度值;Reduct为约简属性结果;

区分矩阵为:

3.2 模型效果

为了说明模型运行效果,分别采用变精度粗糙集属性约简方法和聚类分析法分析对象属性,确定关键变量。其余步骤完全相同,均按照算法介绍中描述的思路建模。结果如表1所示:

4 结束语

利用指标判别法建立核心客户离网预警模型,建模前应用变精度粗糙集属性约简算法将对象预处理,筛选出关键变量作为模型输入变量。与目前常用的数据挖掘方法(聚类)得到的关键变量相比,模型效果有明显的提高。另外,设计的算法可移植性性强,具有普遍适用性。

变精度粗糙集属性约简为需要选择关键变量的模型提供了解决方案,目前这方面的应用还处于尝试阶段,不过应用范围明显在扩大,适用于校园市场学生识别、垃圾短信识别等各类涉及变量选取、对象分类的模型。根据给出的属性约简算法,当精度值取0.45时,运行5 000个包含36个条件属性的对象,最终得到14个属性作为模型输入的关键变量,总耗时390分钟,模型效果很好。

参考文献:

[1] G L Liu, W Zhu. The algebraic structures of generalized rough set theory[J]. Information Sciences, 2008(178): 4105–4113.

[2] 张文修,等. 粗糙集理论与方法[M]. 北京: 科学出版社, 2001.

[3] 胡宝清. 模糊理论基础[M]. 2版. 武汉: 武汉大学出版社, 2010.

[4] 苗夺谦. 粗糙集理论、算法与应用[M]. 北京: 清华大学出版社, 2008.

[5] J S Mi, Y Leung, H Y Zhao, et al. Generalized fuzzy rough sets determined by a triangular norm [J]. Information Sciences, 2008(178): 3203-3213.

[6] L Valverde. On the structure of F-indistinguishability operators[J]. Fuzzy Sets and Systems, 1985(17): 313–328.

[7] W Ziarko. Variable precision rough set model[J]. Journal of Computer and System Sciences, 1993(46): 39-59.

[8] B Q Hu, Z H Huang. (,)-Generalized fuzzy rough sets based on fuzzy composition operations[C]. Fuzzy Information and Engineering, 2009: 647–659.

[9] B Sun, Z Gong, D Chen. Fuzzy rough set theory for the interval-valued fuzzy information systems[J]. Information Sciences, 2008(178): 2794–2815.

[10] W Ziarko. Variable precision rough set model[J]. Journal of Computer and System Sciences, 1993(46): 39-59.

上一篇:浅析电信运营商内部欺诈的风险与预防 下一篇:大唐移动持续打造高品质基站硬件平台