数据挖掘技术在社会保险信息分析中的应用浅析

时间:2022-06-09 01:26:43

数据挖掘技术在社会保险信息分析中的应用浅析

内容摘要:数据挖掘是一项多学科综合的技术,它旨在发现海量数据中隐藏的、未知的、潜在的有用模式或知识。随着社会的进步,社会保险信息分析涉及对大量业务数据进行有效的管理和利用,将数据挖掘的理论和技术应用于社会保险信息分析中具有研究价值和应用效果。本文首先介绍了社会保险及社会保险信息分析的相关概念,同时介绍了数据挖掘技术的基本理论,并详细论述了该技术在社会保险信息分析中的具体实施过程,最后展望了数据挖掘技术在社会保险信息分析中的未来发展趋势。

关键词:数据挖掘;社会保险;信息分析

据挖掘是人们对数据库技术进行研究和开发的结果,目前已在诸多领域得到了广泛应用,只要该领域拥有具备分析价值和相关需求的数据,就可以利用挖掘工具进行数据挖掘。但现今国内把数据挖掘技术应用于社会保险信息分析领域的研究较少,在各种书籍专著中,目前相关专著仅有由劳动和社会保障部培训就业司、中国就业培训技术指导中心组织编写的,由中国劳动社会保障出版社于2008年3月出版的《社会保障信息分析与数据挖掘》。目前社会保障管理现状所面临的诸多问题中,其中就有对大量已有数据的无视和浪费,而数据挖掘技术可以帮助有关人员从社会保险的大量数据中发现事实背后的规律,通过对参保人员的特征数据分析,应用分类、聚类、关联规则和决策树等数据挖掘方法,界定不同参保人员的信用等级,从而针对不同的参保人员提供相应的服务,为构建和谐社会做出必要贡献。

一、社会保险信息分析概述

社会保险 (Social Insurance) 是由法律规定的专门机构负责实施、面向劳动者建立、通过向劳动者及其雇主筹措资金建立专项基金,以保证在劳动者失去劳动收入后获得一定程度的收入补偿的制度。

我国的社会保险包括养老保险(含城镇职工基本养老保险、企业年金、个人储蓄性养老保险、农村养老保险等)、医疗保险(含城镇职工基本医疗保险、城镇居民医疗保险和新农村合作医疗保险)、失业保险、工伤保险、生育保险五种。主管单位为中华人民共和国人力资源和社会保障部。

社会保险分析就是通过已掌握的社会保险相关信息资料,运用相关分析方法加以分析,反映社会保险的现象并揭示其内在的规律性,为社会保险政策制定、科学决策和规范管理提供咨询意见和对策建议。

通过对社会保险信息进行分析,一方面可以真实客观地反映出社会保险政策的执行情况,确保社会保险目标的实现,并不断总结社会保险事业发展过程中的经验与教训;另一方面,又可为决策层提供反馈信息,为科学决策做好必要准备。

二、数据挖掘技术概述

(一)数据挖掘概念。数据挖掘,又称为数据库中的知识发现,就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

并不是所有的信息发现任务都被视为数据挖掘。有些任务虽然重要且涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息,所以并不是我们这里所谈到的数据挖掘。

(二)数据挖掘方法

常用的数据挖掘方法有:

1.决策树方法:用树形结构来表示决策集合,这些决策集合通过对数据集的分类产生规则。

2.遗传算法:它是在生物进化的概念基础上设计的一种优化技术,它包括基因组合、交叉、变异和自然选择等一系列过程,通过这些过程以达到优化的目的。

3.人工神经网络:它从结构上模仿生物神经网络,是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。

4.最近临技术:这种技术通过已辨别历史记录的组合来辨别新的记录,它可以用来作聚类和偏差分析。

5.规则归纳:通过统计方法来归纳、提取有价值的规则。规则归纳技术在数据挖掘中被广泛应用。典型的方法有集合论的粗集方法和概念树方法等。另外,还有可视化方法、公式发现方法等。

三、数据挖掘技术在社会保险信息分析中的应用

社会保险是一项关系国计民生的事业。随着我国社会保险事业的不断发展,对多年来积累的大量历史数据进行有效分析,从而为决策工作提供正确的指导、为管理实施找到详实的依据,成为目前社会保险行业最迫切的需求。

(一)社会保险信息分析的程序

第一步:明确分析目的,拟定分析提纲,编制分析计划。

第二步:搜集、鉴别、整理资料。

第三步:编制分析表。

第四步:进行系统的分析研究。

第五步:撰写分析报告。

(二)数据挖掘流程

1.数据清理:消除噪声与不一致的数据。

2.数据集成:多种数据源可以整合到一起。

3.数据选择:从数据库中检索和分析出任务相关数据。

4.数据变换:数据变换或统一成适合挖掘的形式。

5.数据挖掘:选择适当的算法来找到感兴趣的模式。

6.模式评估:根据兴趣度量识别表示知识的有用模式。

7.知识表示:使用可视化和知识表示技术,提供挖掘出的知识。

(三)数据挖掘技术在社会保险信息分析中的应用方式

根据数据挖掘所具备的功能,数据挖掘的技术可以应用到社会保障对象分析、社会保障基金管理及社会保障决策管理的各个不同领域和阶段,具体可应用在以下四个方面:

1.利用聚类对参保群体进行分类分析。近年来,随着数据仓库和数据处理手段的不断发展,这为社保基金的管理提供了更为有效的手段和工具,这意味着,国家社保机构可以利用相应手段对参保群体进行分类,加深对不同参保群体的了解,从而更好地服务于参保对象,提高社会保障服务水平。

2.参保群体背景分析。了解参保群体的背景资料,有助于社保机构对参保对象进行分析,从而更好的制定社会保障策略。数据挖掘的最大优势就在于可以从大量、表面无关的参保信息中发现许多对国家社保整体有用的模式。

3.参保对象信用分析。通过对参保对象的信用了解,从而对其进行等级分类,对社保机构及其管理工作很有意义,对不同信用级别的参保对象,采取不同的监管措施。数据挖掘可从大量历史数据中分析出具体参保对象的信用等级。

4.数据资源的完善与共享。数据挖掘工作对数据的收集和处理提出了更高的要求,这为规范我国社会保障数据收集和整理工作提出了客观的要求,同时为了实现更好地为参保对象服务,需要整合多个数据库平台资源,达到资源的充分利用,节约相应的劳动和成本。

(四)具体实施过程

我们在接触到一个具体的应用问题后,该如何实施呢?大体可按如下过程实施:

1.找准问题的类型。我们在遇到问题时,必须首先明确所面临问题的类型,然后根据类型的不同选择具体的处理方法。例如,当我们要做参保对象的信用分析时,我们应该首先明确该问题类型属于分类。如果该问题类型无法用数据挖掘工具解决,那么就应当选择另外更加适合的方法来进行解决。

2.选择合适的数据挖掘技术。在明确了所要解决的问题属于哪一类应用问题后,就可以选择合适的数据挖掘技术了。例如上面的问题,我们明确了其任务主要是分类,那么可以采用的技术有遗传算法、决策树和人工神经网络等,我们可以选择决策树,在进行了分类之后,还可以确定每个类的信用等级和骗保预测。选择合适的挖掘技术和工具,对于未来系统的性能和可靠性有重大影响,应该认真分析挖掘目的,慎重选择。

3.准备数据。在已获取的数据基础上,数据的数量和质量对挖掘结果有重大影响,因此我们应从大量的参保数据中找到与分析问题有关的样本数据子集,从而减少处理的数据量,但必须保证其样本子集具有典型的代表性。然后进行数据预处理、分析,尽可能的对问题解决的要求进一步明确化、进一步量化。按问题要求对数据进行增删或组合生成新的变量,以体现对问题状态的有效描述。

4.建立模型和知识发现。在选择好数据挖掘的技术和方法后,下面就要对其建立模型,这是数据挖掘的核心环节。不同的技术方案产生的结果模型有很大不同,而且模型结果的可理解性也存在较大差异。例如,用决策树方法产生模型结果就比用神经网络技术的结果易于理解。另外,对结果的分析和描述也很关键,不恰当的描述会造成误导。

5.证实和评价。通过上面的处理之后,就会得到一系列的分析结果和模式,它们是对目标问题的多侧面的描述,这时需要对它们进行验证和评价,以得到合理的完备的决策信息。可以采用的方法有直接使用原来建立模型的样本数据进行检验,或另找一批数据对其进行检验,也可以在实际运行中取出新鲜数据进行检验。

四、数据挖掘技术在社会保险信息分析应用中的未来趋势分析

数据挖掘是一门新兴的学科,其技术发展还不够成熟,它的功能应用也未得到充分的实现;同时鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘提出了许多挑战性的课题。

(一)可伸缩的数据挖掘方法。由于数据挖掘必须能有效地处理大量数据,而且,应是交互式的。由于数据量是在不断地激增,因此针对单独的和集成的数据挖掘功能的可伸缩算法显得十分重要。

(二)数据挖掘语言的标准化。数据挖掘语言的标准化工作将有助于数据挖掘的系统化开发,改进多个数据挖掘系统和功能间的互操作,促进数据挖掘系统作用的更好发挥。

(三)可视化数据挖掘。可视化数据挖掘是从大量数据中发现知识的有效途径。系统研究和开发可视化数据挖掘技术有助于推进数据挖掘作为数据分析的基本工具。

(四)Web挖掘。由于Web上存在着大量信息,并且Web在当今社会扮演越来越重要的角色,有关Web内容挖掘,和因特网上的数据挖掘服务,将为社会保险信息分析提供新的信息支持。

本文对数据挖掘技术在社会保险信息分析中的应用做了初步的探索,从理论和逻辑上论证了社保管理中数据挖掘技术应用的可行性,并给出了具体的应用流程和方法。但是本文依旧存在一些不足,由于社保数据的特殊性质,未能以真实的社会保险数据为对象,通过相关数据挖掘软件,如SAS等对其进行分析和处理得出相关结论以验证本文的基本假设和观点,这一点是相关研究以后待改进之处,是值得后来研究继续深入挖掘的地方。

参考文献:

[1]Margaret H.Dunham.郭崇慧等译.数据挖掘教程[M] .北京:清华大学出版社,2004

[2][美]Michael.A.Berry、Gordon S. Linoff.别荣芳等译.数据挖掘技术:市场营销、销售与客户关系管理领域应用[M].北京:机械工业出版社,2006

[3][加]Jiawei Han、Micheline Kamber. 范明、孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2001

[4]田光哲,安燕.社会保障信息分析与数据挖掘[M].北京:中国劳动社会保障出版社,2008

[5]张兴会等.基于对角Elman神经网络的失业预测模型[J].南开大学学报(自然科学),2002,6

[6]李勇等.数据挖掘技术在管理中的应用[J].重庆大学学报,2002,8

[7]黄琨等.基于数据仓库的社会保险业务信息查询统计系统分析[J].河北省科学院学报,2004,12

[8]武建华.基于数据仓库的失业保险决策支持系统的研究与实现[J].计算机工程与应用,2004,4

[9]Franklin Maxwell Harper.Data warehousing and the organization of governmental databases[J].Digital government: principles and best practices,2004,1

[10]Chidanand Apte,Pbing Liu,Edwin P.D.Pednault. Business applications of data mining[J].Communications of the ACM,2002,45,8

作者简介:

蔡艳(1983-),女,四川成都人,重庆大学贸易与行政学院07级硕士研究生,研究方向为行政管理、电子政务

胡晓军(1982-),男,河南罗山人,重庆大学贸易与行政学院07级硕士研究生,研究方向为社会保障与城市化

上一篇:基于SWOT分析方法下的玉龙纳西族自治县政府战... 下一篇:英语课堂教学设计点滴