关联规则挖掘技术在人寿保险行业中的应用

时间:2022-10-23 06:18:39

关联规则挖掘技术在人寿保险行业中的应用

摘要:文章运用数据挖掘的关联分析理论,对某人寿保险公司历史保单数据库进行了挖掘,得到了一些合理、可靠的关联规则。从而对于保险公司的增值服务具有重要的指导意义。

关键词:数据挖掘;关联规则

中图分类号:TP274文献标识码:A文章编号:1009-3044(2010)08-1947-02

Association Rule Mining Technology in the Life Insurance Industry in the Application

HAO Xiao-hong

(Shanxi Vocational and Technical College of Water Conservancy, Taiyuan 030027, China)

Abstract: The association analysis using data mining theory, a certain life insurance policies the company's history database of the excavation, has been reasonable, reliable association rules. Value-added services in order for the insurance company has an important guiding significance.

Key words: data mining; association rules

人寿保险行业在日常的经营过程中,经常会遇到这样的一些问题:如何能更好的理解客户,挽留有价值的投保人,对不同年龄段的人、不同行业的人、处于不同社会阶层的人的保险金额度该如何确定。这些问题都是影响公司运营的重要因素。为了更好的掌握投保人的特点及合理的制定保险金额度,可以利用关联规则挖掘来发现投保人与索赔的关系,分析具有什么特征的投保人曾经向保险公司索赔过。对客户群体从不同的角度进行分类归纳,就可以形成各种客户的分布统计,这些分布统计信息就可以作为管理人员决策的依据。

数据挖掘是数据库技术、人工智能、机器学习和统计学等学科相结合的产物。从技术角度看,数据挖掘(DM,Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在的有用信息和知识的过程。从商业角度看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。因此,数据挖掘可以描述为:按照企业既定业务目标,对大量的企业数据进行分析和探索,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。关联规则挖掘是数据挖掘中最活跃的研究方法之一。最早是由Agrawal等人提出的,关联规则挖掘可以发现存在于数据库中的项目或属性间有趣的关系,关联规则可以辅助人们进行市场运作、决策支持、商业管理等。

1 关联规则的的定义

设I={i1,i2,…,im}是所有项的集合。设D是由若干事务记录所构成的事务数据库,D中的每个事务T都是I的子集,即T?哿I。每个事务有一个标识符,称作TID。X是I中的子集,如果X?哿T,我们说T包含X。关联规则是形如X=>Y的蕴涵式,其中X?奂I,Y?奂I,并且X∩Y=?I。X称为规则前提,Y称为规则结果。在事务集D上,如果包含X的事务有c%也包含Y,那么规则X=>Y的置信度为c%。如果D中有s%的事务包含X∪Y,那么规则X=>Y的支持度为s%。s,c可用如下公式表述:

s=sup(X=>Y)=P(X∪Y)

c=conf(X=>Y)=P(Y|X)=sup(X∪Y) / sup(X)

给定事务集D,挖掘关联规则问题就是发现所有支持度(sup)和置信度(conf)分别满足最小支持度阈值和最小置信度阈值的规则。

2 关联规则挖掘过程

关联规则挖掘问题主要包含以下两个步骤:

步骤一:找出存在于数据集中的所有频繁项集。根据定义这些项集的频度至少应等于预先设置的最小支持度。

步骤二:在频繁项集中产生相应的强关联规则。即确定规则X=>Y是否有效,可以令:

r=sup(X∪Y)/sup(X),当且仅当r>min_conf时,规则有意义(其中min_conf为最小置信度)。

步骤一是关联规则发现算法设计的核心问题,因为它的效率高低是算法的关键,这一部分也是最耗时的过程。步骤二中相应的操作极为简单,目前所谓的算法设计问题主要是围绕如何生成频繁项集进行的。本文采用当前主流的频繁闭项集算法CLOSET+。

3 应用实例

为了研究投保人与索赔的关系,我们从某市一家人寿保险公司的历史保单数据库中提取出相关数据,把其整合到关系表中进行关联规则挖掘。下面的表3-1为整合之后的信息。为了更好的进行关联规则挖掘,要对表3-1中的基本信息进行基于量化的数据预处理。结果表为3-2。具体的量化处理方法为:

1)符号A描述年龄,A1(

2)符号B描述性别,B1表示“女”B2表示“男”。

3)符号C描述工作单位,C1(事业单位及公务员),C2(国企),C3(股份制及外企),C4(私企)。

4)符号D描述收入状况,D1(高),D2(较高),D3(中),D4(低)。

5)符号E描述险种,E1(医疗险),E2(养老险),E3(意外险),E4(教育险),E5(理财险)。

6)符号F表示投保人是否曾向保险公司索赔,F1表示“是”,F2表示“否”。

表1 基础数据 表2 基础数据量化结果

关联规则挖掘过程:由关联规则的概念和表3-2的量化结果,可得出项目集合为{A1,A2,A3,A4,B1,B2,C1,C2,C3,C4,D1,D2,D3,D4,E1,E2,E3,E4,F1,F2},假设关联规则的支持度至少为30%,置信度至少为70%。进行关联规则挖掘过程如下:

1)利用频集挖掘算法找出频繁项集。

2)找出支持度至少为30%而且置信度至少为70%的强关联规则。

由以上两步得出的和索赔情况有关而且实用的强关联规则为(A4,B2,C4,E1)F1(支持度为30%,置信度为100%)此规则可解释为投保单上年龄大于45岁,工作单位是私企的男性投保人,购买医疗险的几乎都曾经向保险公司索赔过。根据挖掘结果分析原因,我们发现对于工作在私企的男性投保人来说,由于工作压力大,生活节奏快,同时45岁左右的中年男子正处于家庭负担最严重时期,生活压力也很大,这些因素导致这部分人群的健康状况不好,因此公司索赔率也相对比较高,保险公司可以考虑相对提高这部分人群的保险金额。此结论对于保险公司的增值服务具有重要的指导意义。

4 结束语

我们用数据挖掘技术来分析人寿保险行业中的海量历史数据,进而从中获取有意义的信息,以达到提高效益的目的。数据挖掘技术是具有广阔前景的数据处理与分析技术,它将在有海量信息的行业中发挥不可估量的作用。

参考文献:

[1] Mehmed Kantardzik. DATA MINING Concepts,Models,Methods,and Algorithms[M].北京:清华大学出版社,2003.

[2] 徐维祥. 基于频繁模式树的一种关联规则挖掘算法及其在铁路隧道安全管理中的应用[J].中国安全科学学报,2007(3):25-32.

[3] 王晓东, 许占文. 高效关联规则数据挖掘算法研究[J].沈阳工业大学学报, 2008(8).

上一篇:用触发器实现特殊参照约束下的级联操作 下一篇:基于Java的网络通信的设计与实现