数据挖掘技术在经济统计中的应用探索

时间:2022-09-22 04:08:39

数据挖掘技术在经济统计中的应用探索

摘要:如今,经济统计尚且普遍存在数据库庞大、复杂且数据质量低下等亟待解决的问题。究其根本,对于数据的统计、处理方法仍然停留于报表分析统计的层面,深层次的智能性处理分析十分缺乏,使得潜在于数据间的联系及价值易被忽略,同时虚假数据鉴别水平较低。针对这些问题,我们探讨了数据挖掘技术在经济统计中的相关应用,旨在为相关引用提供一定借鉴。

关键词:数据挖掘技术 经济统计 应用探索

传统数据处理利用的主要是数理统计学知识及软件,对经济统计数据库中数据的开发利用形式相对单一、深度有限,远不能满足如今经济数据的分析利用要求。而相比之下,数据挖掘技术一方面能够在已有统计水平的基础上剔除虚假数据、改善数据质量,另一方面能够深层次挖掘数据之间联系、充分利用数据。因此,对于相关方面的探索十分具有必要性。

一、数据的预处理

没有高质量数据,必然没有高质量数据挖掘的结果,而在实际数据挖掘的过程中,由于收集到的数据难免会存在有缺漏、重要数据不全、不一致及含有噪声等问题,因此对于数据的预处理是首要而关键的步骤。对于数据的预处理主要包括以下四个部分。

(一)数据清理

顾名思义,数据清理的目的即通过适当的方法将其中缺损、不一致及噪声清除掉,以此提升数据的整体质量。通常采用的方法包括均值法、平滑法、预测法及频率统计法。不同的方法所对应的实际情况不同,若数据为噪声数据或是空值,所要采用的方法为均值法或平滑法,相比于均值法,平滑法讲求将k个不为空的数据取加权平均值作为替换(均值法以k个不为空的数据的平均值作为替换);预测法用于推断噪声数据或空值得最可能取值;预测法主要用于数据的缺损处理。

(二)数据集成

通常情况下,数据是自不同数据源挖掘的,而我们在实际处理、分析及应用过程中,便要将它们集合成为一个整体,这便是数据集成的过程。在实际中,统计部门先由各地方统计局进行经济数据的广泛收集,其次要做的便是数据集成,不可避免的会带来若干问题,如模式集成问题,即怎样确定来自不同数据源的数据能够互相匹配;冗余问题,即假使一个数据的属性能够由另外数据库中数据的属性推论得出,则出现冗余问题;另外,还有数据冲突甚至消除,这一问题指的是来自于不同数据源的数据可能出现因差异导致的相互排斥。

(三)数据变换

通过一定方式将数据变换成与之相当,且适合信息挖掘的形式,即数据变换,主要包括数据的规范化和泛化。数据的规范化,主要包括零均值规范化、最大最小规范化等;而数据的泛化则是将低数据层或层次的数据用高层次概念取而代之。

(四)数据的离散化及概念分层

现实中的数据具有连续性,而在已发现的处理算法中能处理连续性数据的还较少。数据的离散化即通过区间的划分来用标号代替某一实际数据,达到数据的解连续。概念分层是通过提高数据层次概念来减少数据的收集量。

二、关联规则及决策树

(一)关联规则

在数据挖掘领域中,关联规则挖掘具有高度的灵活性和重要性,主要是对数据集合中数据属性的相关性联系进行反映,整个过程通过对集合中的关联、频繁模式及因果结构进行查找,以查找容易被忽略或与人们熟知相背离的事件。经济统计中数据关联规则的挖掘,能够分析出大范围(如整个地区、甚至国家)内关系密切联系的行业。能够借助于不同属性的数据,来找寻具有相关联系的属性。在实际运用当中,很多属性之间所存在的关系为人们所知晓,被称为平凡规则,如提升工业总产值能够带来生产总值的增加。通过平凡规则,我们能够对数据质量的高低进行判断,这一过程便是我们经常说的通过熟知的关联关系来确定数据是否与集合具有一致性,以此达到消除虚假数据的目的。

(二)决策树

决策树算法十分直观、常用,这一过程的关键是决策树的有效构建,主要分为建树及剪枝阶段。通过决策树对数据分类主要由两个步骤组成:其一,决策树模型的构建,即通过训练集实现一颗决策树的构建及精化;其二,将输入的数据通过决策树进行分类处理。当将数据输入决策树时,会由根节点对属性值依次进行测试并记录,然后到达叶子节点,来实现寻找记录所在类。从整体来看,决策树算法属于递归过程,一直进行到满足终止条件为止。分割停止要满足两个条件:其一为某一个节点上数据都同属一类;其二是能够进行数据分割的点已经耗尽。这一过程主要用于解决数据挖掘的预测及分类方面问题。

三、结束语

数据挖掘在未来的经济统计中具有十分可观的应用前景,能够深层次分析处理数据,使数据质量提高,帮助政府及企事业单位有效进行政策制定、计划拟制及行政事务的管理,创造更大经济效益和社会价值。本文主要从数据的预处理和关联规则和决策树两个方面对数据挖掘技术在经济统计中应用进行浅析和探索,旨在为行业提供一定的借鉴。

参考文献:

[1]行智国,吕斌.数据挖掘及其在官方统计中的应用前景[J].江苏统计;2010年02期:11-12

[2]王斌会,曲颖.数据挖掘技术及其应用现状[J].统计与决策;2010年10期:22-23

[3]韩江,邹建民.数据挖掘――极具发展潜力的新领域[N].苏州市职业大学学报;2010年01期:27-28

上一篇:论能源企业的品牌建设 下一篇:工程会计如何做好工程核算和成本控制