浅谈数据仓库技术在税务系统中的应用

时间:2022-08-03 04:19:54

浅谈数据仓库技术在税务系统中的应用

摘要:本文介绍了数据仓库、知识发现以及数据挖掘的概念。浅析了税务信息化的现状和存在的问题、建立税务数据仓库的意义及其基本构想。

关键词:税收;分析预测;数据仓库;数据挖掘

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)17-21384-03

1 前言

随着税务信息化的快速发展,大量数据产生于业务处理系统中,并且正在以成倍的速度增长。但是数据零散,集中整合度低,不能适应税收决策和数据分析的需要。数据仓库和数据挖掘技术的出现,为分析人员提供了强有力的信息支持,帮助分析人员进行正确的判断,做出科学的决策。将数据仓库技术运用到税收工作中来以支持税收决策和数据分析,提高工作的效率和质量已成为现实的需要。

2 数据仓库系统结构

数据仓库系统通常由数据仓库、管理部分和分析工具三个部分组成,这三个部分之间的关系如图1所示。

图1 数据仓库系统

2.1 数据仓库

20世纪90年代初期,著名的数据仓库专家W. H. Inmon首先提出数据仓库的概念:数据仓库DW(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

2.2 管理部分

管理部分包括对数据的安全、归档、备份、维护及恢复等工作。其功能主要是完成数据仓库的定义,数据抽取、转换、装载数据归档、备份、维护、恢复及元数据管理等功能。它有以下3部分组成:

1)定义部件――用于定义和建立DW

a、设计和定义数据仓库的数据库。

b、定义数据源。

c、确定数据源向数据仓库复制数据的转换、清理规则。

2)数据获取部件

a、装载DW。依据数据定义部件定义的规则从数据源中将数据抽取到数据仓库中,完成清洗、变换和集成工作,将数据装填到数据仓库中。

b、定期清理DW。定期清理数据仓库,清除数据仓库与数据源数据库的不一致,清除失效数据。数据获取一般用通用工具或特制的工具完成数据获取工作。

3)管理部件:对DW中数据的维护、安全、备份、恢复、日志等工作。这些工作要借助DBMS的功能实现。

2.3 数据仓库工具集

数据仓库工具集主要由一些分析工具组成,主要包括检索查询工具,多维数据的OLAP分析工具、统计分析及数据挖掘工具等。

DW应用是一个典型的C/S结构,其客户端的工作主要包括客户交互、格式化查询、可视化以及数据报表生成等;服务器端完成多种辅助的查询、复杂的计算和各类综合功能等。

3 建立数据仓库的意义

3.1 国税信息系统现状及存在的问题

税务部门信息化建设经过多年的发展,开发设计了多种信息系统,这些系统的投入和运行大大提高了税务机构的整体运行效率,在加强税收管理和监控、打击偷逃骗税方面等取得了明显成效。但是从一体化建设的总体要求来看,还存在以下问题:

1)从技术角度看,由于税收业务的复杂性和多样性以及一些历史原因,税务系统内部存在许多面向不同业务的OLTP(联机事务处理系统),这些系统之间缺乏集成,各自为政,支离破碎,形成了一个个信息孤岛,很难为决策者提供综合的、高效的辅助决策信息。

2)从用户需求角度看,随着税收信息化工作的深人发展,如何帮助决策者在面临半结构化或结构化比较差的问题时进行决策,是税收信息化面临的重大课题。

随着税收信息化的深人,各级税务机关积累了大量的业务数据,但由于缺乏有效的技术手段,面对大量分散的数据资源,各级管理者特别是高层决策者却难以得到及时、准确、综合而适用的信息,这对于提高工作效率,适应瞬息万变的需求,提高税收质量是不利的。

3.2 建立税务数据仓库的意义

数据仓库项目的启动,意欲将原有业务系统查询、报表统计及分析等方面的应用,转移到新建的数据仓库系统中,从而减轻原有业务系统的压力;另外,还将实现税务部门内部数据的整合,将原有业务系统分布在不同地点、不同数据平台存放的数据进行集中,成为今后税务部门的数据中心。基于数据仓库的数据挖掘技术和联机分析处理(OLAP)从海量数据中提取隐含在其中的有用信息,帮助税务部门对数据进行微观、中观和宏观的统计分析,加强税源监控,预测税收收入,科学而高效地进行决策。

4 建立税务数据仓库的基本构想

4.1 数据仓库体系结构的提出

面向国税分析预测的省国税级数据仓库体系结构如图2所示:从图中可以看出,区国税局作为底层数据源,将提供大量事务性的细节数据,这些数据通过数据转换和集成程序,加载入数据仓库。这个数据仓库建立在省一级,数据仓库内将存储从区收集上来的大量细节性数据,同时还将存储综合级别的数据,即对细节性数据进行初步汇总、聚合后得到的数据。通过以上步骤之后,在数据仓库中存储的将是国税分析预测所需的大量信息,在此基础之上,国税分析预测人员将通过OLAP工具,数据挖掘,DSS(决策支持系统)分析工具对数据仓库中的信息加以充分利用,以进行更加有效的国税分析预测。

4.2 数据仓库的设计

数据仓库的设计不同于传统的数据库的设计。其设计是数据驱动的,开发是一个不断循

环、反馈、完善的过程。考虑到税务行业技术复杂、业务种类繁多的特点,采用“自底向上”的方法进行设计比较合适。

1)区国税局基础系统网络

该网络分两层:一层为省局的网络数据库服务中心;另一层为各地市局的局域网。它需要为数据仓库的建立提供完整的技术支持手段,包括实现网络连接、数据库互连和访问等。

2)数据转换与抽取

由于数据源的多样性和异构性,数据采集系统要按数据仓库的设计要求从应用数据库中提取数据,重整后存放在数据仓库中。各业务数据库的数据类型通常不同,因此必须进行数据转换,确保数据的一致性和可用性。

3)数据仓库

数据建模对数据仓库至关重要,与传统的数据库建模技术相比,星型模式能够在用户查询和收集时对大量指标实体进行筛选,以减少数据仓库的最终容量,因此较适合于以查询为基础的数据仓库模型设计。数据仓库中的数据结构需在现有业务系统数据结构基础上,针对管理信息的特征(时间特性和汇总特性,对数据的名称、类型、描述及关联)进行重新定义,主要包括:同意数据类型、调整数据长度和增加时间属性。

5 结论与展望

这种基于数据仓库,实现辅助税务行业决策支持的构想,将数据仓库技术、联机分析处理、数据挖掘技术引入系统,解决了传统DSS系统忽视历史数据和数据管理难度大等问题,对于我国税务事业的发展具有重要的意义。

参考文献:

[1] 夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004.

[2] 王珊.数据仓库技术与联机分析处理[M]. 北京:科学出版社,1998.

[3] 哈默・格兰.数据仓库技术[M]. 北京: 中国水利水电出版社,1998.

[4] 陈京民. 数据仓库与数据挖掘技术[M]. 北京:电子工业出版社,2002.

[5] 彭木根.数据仓库技术与实现[M]. 北京:电子工业出版社,2002.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:基于改进的K-均值聚类图像分割算法 下一篇:用RSA实现电子商务系统中的数字签名