数据挖潜让业务说话

时间:2022-08-25 06:26:52

数据挖潜让业务说话

家庭收入还有没有可以增长的空间?对于现在很多挣钱不够花的家庭来说,仔细研究自己的潜力,看能不能工作再努力些争取涨工资,或者在空闲时间打打零工也是不错的开源方法。

对于国家之命脉―税务工作来说,先将各种信息汇聚在一起,然后通过数据分析和挖掘,找到还可以增长的空间,多方比对增加税收,既可以充实国库,又可以帮助税务部门更好地为百姓服务,利国利民。

随着税务行业信息化工作的不断推进,税务管理信息系统(MIS)发展逐渐成熟,省市级别的数据大集中已成为趋势,税务部门与其他政府部门之间的数据交换在日益扩展,各地的数据资源积累已达到相当的程度,整个行业的信息化正逐步走向数据资源的整合利用和深度开发。数据挖掘是数据分析的最先进手段,必将在税务行业的这一波信息化进程中起到不可替代的作用。

数据挖掘目前已有成熟的商用软件,集成了如神经元网络、CRT、C5.0、关联规则等各种数据挖掘算法,用户界面友好,操作便捷。数据挖掘技术已经走出了学院的象牙塔,正在各个具体的应用部门发挥价值。

南京地税自2003年5月起就开始接触数据挖掘技术,并在税收收入预测、稽查选案、纳税评估等应用主题中,深入研究了数据挖掘技术的应用,目前数据挖掘技术和数理统计技术共同构成了,南京地税决策支持系统的信息加工平台,承担了大量、复杂的数据分析工作,将数据转化为可用于辅助决策的信息。

数据挖掘应用不同于MIS系统(MIS以操作为基准对业务逻辑进行再现),是以数据为基准,反溯业务逻辑。因此数据挖掘项目的开发不同于MIS系统开发。MIS系统的开发可以分条分块,寻找各个业务部门的业务知识的支持。而数据挖掘项目,所有的业务知识都有价值,但这些业务知识都归集在数据上,项目的核心人员必须首先熟悉数据,其次熟悉业务,其熟悉业务的程度和挖掘的成效成正比。

每一种数据挖掘工具在实际运用过程中,都有自己的一套挖掘项目实施方法论,据我们观察是大同小异。数据挖掘项目实施过程大体上可分为需求分析、数据整理、建立模型、模型评估、模型五个阶段,其中各个阶段之间除了依次进行的顺序关系外,还存在叠代循环的关系。

数据变换

数据变换是指将原始数据转换成适合建模的数据,手法有很多种,具体采用哪种方式,要在建模过程中,根

据预测的准确率进行调整。常用的有以下手法。

绝对值和相对值的变换

如税收金额增减状况,可以做成绝对值,即增减额,也可以做成相对值,即增减率,相对值还可以做成环比、定比等。

离散度的变换

连续变量转换成离散变量是一个非常考究的过程,是否需要转换,以及离散度的确定,最终都需要根据预测精度的变化来调整,通常需要通过数据的分布状况,以及对预测变量的影响来综合判断。比如税收增长率,是否需要变换成离散变量,如果转换成离散变量,到底分成几个档次,每个档次如何划分?大体上离散度的划分要遵循“二八”规则,具体如何解决要在建模的过程中不断尝试,没有完美的解决方案。

函数的变换

比如转换成标准单位、计算SD等等。

数据变换是否有效有两种判断方式:一种是事前判断,主要通过条形图进行,例如在稽查选案项目中,查看收入增长率(目标变量)和稽查结果(预测变量)的条形图,观测稽查结果取值(比如是有税或无税)是否在收入增长率的取值中有明显的差异,如果根本没有太大的差异,说明变换不成功,或者根本没必要进行变换。二是在建模过程中判断。这也是没有办法的办法,依据模型的预测精度来进行调整变换的手法,需要无数次的尝试。

结果数据集成

对处理完毕的数据,按照实体将各个数据表的数据项归集为一张有很多字段项的宽表,如稽查选案应用,结果数据集成就是按税户归集其所有的属性和行为过程、行为结果字段。整个数据整理过程就是为了形成一张用于建模的宽表,宽表的字段项会非常多,超过100个也很正常。

需要注意的是,数据处理要经历很多步骤,例如对税款所属期的纠错,据统计有超过200个步骤,烦琐的处理过程非常容易出现差错,数据处理过程中,要不断进行检查,特别是要检查处理的结果数据。数据处理过程必须要依赖工具软件完成,一般的数据挖掘工具软件,都是用数据流的方式来处理的,数据流可以重复应用,可以大大降低工作强度。

建模

建模是指将宽表数据按记录拆分为训练集和测试集,用训练集数据引用各种数据挖掘算法,建立训练分析模型。经调整后,该模型的预测精度达到预期目标,就可以用测试集数据对模型进行再测试,如果预测精度仍然能达到预期目标,则建模工作完毕。建模工作有三个命题需要选择:一是选择合适的挖掘算法。二是在宽表中选择合适的输入字段。三是选择算法中合适的参数。可以说建模是种艺术,其中技巧非常多,当然也可以不用任何技巧,只要把所有能想到的组合都试一遍,忍不住要放弃的时候,基本上离成功就不远了。建模绝对是对耐心的挑战。

评估

评估一个模型是否成功的标准是由税务机关的具体应用部门提出的。需要特别指出的是,应用部门通常会存在认识误区。一是不理解预测期间的概念,比如以年为一个预测期间,预测精度是90%,不代表每个月的预测精度都能达到90%。二是预测是建立在某种假设基础上的,当外部或内部条件发生重大变化时,该假设不复存在,模型的预测结果也就不再可用了,需要重新训练模型。所以数据挖掘项目的维护会比开发更为困难,并且训练模型是一个常项工作,应用部门必须对此有充分的心理准备。越是精密的技术越是脆弱。

建模成功后,将真实数据导入,利用分析模型,就可以得到预测结果,用于某些决策活动,如稽查选案、纳税评估选案、收入计划控制等。但需要指出的是,无论数据挖掘技术多么高深、科学、精密,其提供的预测结果只能作为决策的参考,即只是辅助决策而不是替代决策。基于这一思想,数据挖掘过程中形成了副产品:一是数据整理阶段形成的一系列反映实体属性及行为过程和行为结果的数据表;二是分析模型中蕴含的规则,无论是神经元网络、C5.0、关联规则、各种聚类等各种挖掘算法模型,都可以生成一系列的规则,这些规则甚至可以用特定方式,由文本形式转为二维数据表。这两项副产品和预测结果可以一并提交给应用部门,来帮助其完成决策过程。我们在实际应用过程中发现,副产品的价值是高过预测结果的。

在南京地税应用数据挖掘技术的过程中,前期单项技术应用取得的实际成效是有限的,然而正是在数据挖掘的实施过程中,对业务数据长期大规模深入分析,使我们对数据资源管理开发的认识水平有了质的提高。我们首次认识到基础数据的质量比想像中要糟糕得多,因此有了后来的数据审计和数据管理制度体系;我们认识到数据仓库的存储主题和应用主题,以及数据仓库的ETL和信息加工都有本质的区别;数据仓库的信息展现除了OLAP的多维分析报表,还需要其他展现形式;信息查询除了要符合准确性、及时性外,综合性和重要性也不能忽视……正是基于这些认识,南京地税把数据库、数据仓库、OLAP、数理统计、数据挖掘等各项数据管理及分析处理技术进行全面整合后,建立了平台性,能够支持战略决策、管理决策和操作决策的决策支持系统,系统应用过程中已经能够产生实质性的效果,数据资源管理、开发、利用工作走上了良性发展的道路。

上一篇:服务国际汽车巨头 打造尖端网络引擎 下一篇:暑促热潮持续加温,联想“组合拳”业绩显著