数据挖掘技术在保险业中的应用研究

时间:2022-03-29 10:13:40

数据挖掘技术在保险业中的应用研究

摘 要 本文以保险公司为例,通过用数据挖掘方法中改进的ID3算法来实现对客户进行分类,然后再进一步对得出的结果分析,以从中发现企业产品的销售规律和客户群特征,从而使企业可以更好的制定营销策略。最后结合例子对该方法的应用进行了说明。

关键词 数据挖掘;ID3算法;决策树;客户利润贡献度

一、引言

客户作为企业的一种资产,对提高企业竞争力的重要性日益增加。根据帕累托原则,一个公司80%的盈利是由20%的客户创造的。从中可以看出,并非所有的客户对企业都是同等重要的,这就要求企业对客户进行细分,注重那些对企业利润贡献多的客户,即客户利润贡献度高的客户,减少因为盲目投入造成的不必要的浪费[1]。数据挖掘技术符合这一要求。保险公司经过多年发展,已积累了大量宝贵的客户数据资源,如何处理这些海量数据,更好地汇总、分析这些历史数据并从中挖掘出业务内在规律,将其变为有用的信息和商机,将会主导未来相当长时间内各个保险公司的工作战略。

数据挖掘就是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在有用的信息,提取的知识表示为概念(Concepts) 、规则(Rules)、规律(Regularities)、模式(Patterns)等形式的过程[2]。根据数据挖掘中使用的数据分类模型的不同,数据分类方法可以分为:使用决策树模型的数据分类、使用神经网络模型的数据分类、使用统计模型的数据分类等。在这些分类方法中,决策树分类由于自身的优点而广被使用,其优点为: 结构简单,便于理解;效率高,对训练集数量大的较为适合;通常不需要受训数据外的知识;具有较高的精确度[3]。

二、数据挖掘在保险公司客户管理中的应用

1.改进的ID3算法

在决策树分类算法中,最有影响力的是Quinlan提出的ID3算法。实质是构造一棵熵值树,采用使信息熵最大的属性作为每个结点的分支选择属性,使得到的决策树深度较小,以提高其分类速度。但是它忽略了决策树的宽度,因此需要在学习过程中自动地构造出新的属性,并嵌入到决策树中,这就是改进的ID3算法的核心问题。

设S是s个数据样本的集合。假定类标号属性具有m个不同值,定义m个不同类Ci (i=1,2,…,m )。设Si是类Cm中的样本数,一个给定的样本分类所需的期望信息,即系统的总熵由下式给出:

I(S1,S2 ,…,Sm) =-

其中Pi是任意样本属于Cm的概率,并用Si/S估计。

设属性A具有v个不同值{a1,a2,…, av}。可以用属性A将S划分为v个子集{S1,,S2,…,Sv};其中,Sj包含S中这样一些样本,他们在A上具有值aj。如果A选作测试属性,则这些子集对应于由包含集合S的节点生长出来的分枝。设Sij是子集Sj中类Ci的样本数。那么,这时按A的每个属性值进行分割后的信息量,也就是系统总熵或期望信息为:

E(A) = I(S1,S2 ,…,Sm)【4】

充当第j个子集的权,并且等于子集中的样本个数除以S中的样本总数。熵值越小,子集划分的纯度越高。注意,对于给定的子集Sj,

I(S1j + S2j +…+Smj ) = -【4】

其中,是Sj中的样本属于类Ci的概率。引入一个量:信息增益(Information Gain)表示系统由于分类获得的信息量,由系统熵的减少值定量描述。用属性A划分样本集S后所得的信息增益值为:

Gain(A)= I(S1j + S2j +…+Smj) - E(A)

ID3选择使Gain(A)最大的属性A作为分枝属性,这种方法使生成的决策树平均深度较小,从而有较快的分类速度。但实践证明这个标准易偏向于取值较多的属性,提出了信息增益率的选择方法,信息增益率定义为:

G(A) = Gain(A) / E(A)

随着每个属性值的判断,从决策树中选择例子集,使不确定性相对减少。

2. 数据挖掘在某保险公司车险中的应用

(1)客户信息的收集和规范化处理

从企业客户关系管理部门的数据集中采集客户记录,如:客户信息表和车辆保单信息表。目的是建立以客户利润贡献度为主题的数据集合。客户信息表包括:编号、姓名、年龄、驾龄、性别、职业、学历、收入、电话、地区等。车辆保单信息表包括:编号、保单号、车辆种类、理赔次数、保费、险种、生效日期、投保日期等。

公司利润表有三个属性:客户年龄、客户驾龄、理赔次数。一个类别是企业的利润贡献度,分为两类:高和低。数据汇总一方面是将企业不同部门和不同分销机构的数据进行集成;另一方面是将数据进行钙化处理,即将低层次的原始数据替换为高层次的概念,以便于进行数据挖掘。例如将具体的客户年龄概化为=50 三个年龄段,分别代表青年、中年和老年客户群,同样根据客户驾龄的不同划分为≤5、510、≥10三类,同样客户理赔次数不同划分为0、1~2、≥3。

下表是从某市保险公司数据库中的销售和客户信息经过数据规范化处理后得到的公司利润表训练数据集(15个样本):

(2)从选取的训练数据集中计算属性的信息增益值

由上表,依据利润贡献度这一类别属性可以将样本划分两类:高和低。高类有7个样本,低类有8个样本。因此,对给定样本分类所得的信息增益为:

I(S1 ,S2 ) = (7 , 8) = -

= = 0.997

(3)利用信息增益值选取最能区别训练数据集中实例的属性

首先计算每个属性的熵:

对年龄而言:当年龄 < = 25:S11 = 2 S21 = 3

I(S11,S21) =0.971

当年龄 25~50:S12= 3S22= 2 I(S12,S22) = 0.971

当年龄 > = 50:S13 =2S23 =3 I(S13,S23) = 0.971

由以上3式可得年龄的期望信息:

E(年龄)=I(S1j, S2j)= 0.971

此时可以得到年龄的信息增益:

Gain(年龄)=I (S1,S2 ) -E(年龄)= 0.026

则年龄的信息增益率为:

G(年龄) = Gain(年龄) / E(年龄) = 0.027

同理可以计算出理赔次数,驾龄的信息增益率分别为:

G(驾龄)= Gain(驾龄) / E(驾龄)= 0.061

G(理赔次数)= Gain(理赔次数) / E(理赔次数)= 0.460

由此可以得出G(理赔次数) > G(年龄) 、G(驾龄),理赔次数在属性中具有最高信息增益率,所以理赔次数被选作测试属性。

(4)创建一个理赔次数为根结点的书,并创建该结点的子链,每个子链代表所选属性的一个唯一值,使用子链的值进一步细化子类。具体算法如下所示:

算法:由给定的训练数据产生一棵判定树[5]。

输入:训练样本samples,由离散值属性表示;候选属性的集attribute_lists。

输出:一棵判定树。

方法: ①创建节点N;②Ifsamples都在同一个类CThen返回N作为叶节点,以类C标记;③If attribute_list为空Then返回N作为叶节点,标记为samples中最普遍的类;④选择attribute_list中具有最高信息增益的属性test_attribute;⑤标记节点N为test_attribute;⑥For each test_attribute中的已知值ai;⑦由节点N长出一个条件为test_attribute = ai 的分枝;⑧设Si是samples中test_attribute = ai中的样本的集合;⑨设If Si为空Then 加上一个树叶,标记为samples中最普通的类;⑩Else加上一个由Generate_decision_tree(Si,attribute_list - test_attribute)返回的节点。

从(3)可以得出:G(理赔次数) > G(年龄) 、G(驾龄),理赔次数在所有属性中具有最高信息增益率,所以理赔次数被选作测试属性。并根据其将样本集分为三个子集:0、1~2、≥3,每个子集对应一个分枝,生成三个叶节点,对于每个叶节点均按照上述过程寻找其分裂属性。最后由此算法可得如下图所示的决策树:

(5)用IF-Then形式的分类规则提取上图的决策树中表示的信息

由该决策树,企业可从中发现产品的销售规律和客户群特征,以便制定未来更有效地营销策略。由此决策树可得如下结果:①IF 理赔次数=0Then 利润贡献度 = 高 (注:不论客户的年龄是多少);②IF 理赔次数=1~2 and 25≤年龄≤50Then 利润贡献度 = 高;③IF 理赔次数=1~2 and年龄≤25 and 驾龄≤5Then 利润贡献度 =低;④IF 理赔次数=1~2 and年龄≤25 and驾龄=5~10Then 利润贡献度 = 高;⑤IF 理赔次数≥3 Then利润贡献度 = 低 (注:不论客户的年龄是多少)。

由以上5条结果可得如下结论:①当客户理赔次数为0次时,无论客户的年龄大小,无论驾龄为几年,对企业的利润贡献度贡献度都比较高。这些客户我们称之为主要客户,主要客户是指对公司销售贡献较大的客户,公司应尽最大的努力保持及发展这些客户。这样企业才会获得更多的利润,维持更好的发展。②当客户理赔次数在1~2次时:年龄在25~50;或者年龄≤25并且驾龄在5~10年;或者年龄≥50并且驾龄≥10年;这3中情况下客户对企业的利润贡献度相对比较高;这部分客户我称之为普通客户,普通客户是指客户的消费额占公司总销售额一定的比例,能够为公司带来一定的利润,公司应加大力度采取保持客户和发展客户的策略。其他情况客户对企业的利润贡献度比较小。③当客户理赔次数大于等于3次时,无论客户的年龄大小,无论驾龄为几年,对企业的利润贡献度贡献度都比较小。这些客户我们称之为小客户,小客户一般对公司的贡献不大,其中有些还可能不能为公司创造利润,公司应对这部份客户采取保持客户的策略。

三、结论

本文在一个有500条记录的客户数据集上测试了该方法。客户属性集包括:利润贡献度、理赔次数、驾龄、居住地区、收入、年龄、性别、职业,其中利润贡献度作为用于分类的类标志属性。随机抽取350条记录作为训练数据集,另外150条作为测试集,测试结果为:将客户按照利润贡献度分为两类时准确率约为89% ;将客户按照利润贡献度分为三类时准确率约为75% ;将客户按照利润贡献度分为四类时准确率约为60% 。

当客户分类数在两类时,其准确率可以被用户接受,但是超过三类准确率较差,但对于这种规模的企业,就其经营能力来说很难同时为超过三个具有不同利润贡献能力的客户群分别制定不同的客户关系战略并完全贯彻实施,所以对于这一数据集来说,该方法的结果还是有实用价值的。如果有规模更大的企业,它的客户记录应该更多,这样用更多的数据训练可能会提高该方法在分类数较多时的准确性。

参考文献

[1] 郭俊鹏、刘西林 .基于ID3 算法的进一步客户细分方法;工业工程;第9卷第2期; 2006.3.

[2] Jiawei Han 、 Micheline Kamber . Data Mining Concepts and Techniques[M];高等教育出版社, 2001.

[3] 谭旭 、王丽玲.利用决策树发掘分类规则的算法研究[J] ;云南大学学报(自然科学版) ;2000 .

[4] 邵峰晶、于忠清.数据挖掘原理与算法[M];中国水利水电出版社;2007.6

[5] 邹鹏、李一军、 叶强.客户利润贡献度贡献度评价的数据挖掘方法[J];管理科学学报;第7卷第1期;2004.2 .

作者简介:

王保义 男(1982―),籍贯:山东德州,西安电子科技大学经济管理学院硕士研究生。

赵文平 男(1963―),籍贯:山西侯马,西安电子科技大学经济管理学院教授,硕士生导师。

上一篇:杜邦分析体系改进的不同模式探讨 下一篇:加强企业内部控制完善各项制度实施