数据仓库技术综述

时间:2022-08-28 12:40:38

数据仓库技术综述

摘要:数据仓库是数据库技术的一个新的发展方向,是当前热门的一个研究领域。介绍了数据仓库的概念、体系结构特点,对数据仓库的创建过程进行了分析,对数据仓库在国民经济领域中的应用及其发展前景进行了描述。

关键词:数据仓库;体系结构;维度

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)15-20998-02

The Summary of the Data Warehouse Technology

WANG Min1,2, ZHOU Cong-jun2,DU Cheng-Long2

(1. Hubei University of Technology,Wuhan,430068;2.Hubei Professional College of Land Resource,Jingzhou,434003)

Abstract: Data warehouse is a new progressing direction of database technology,and is also a popular research fields currently.This paper introduces the data warehouse definition,architecture and characters.The article also analyzes the procedure of building Data Warehouse .In the end,it describes the application of data warehouse to the national economy fields and the prospect of the data warehouse in the future.

Key words: data warehouse;architecture of the warehouse;dimension

1 引言

在过去的几十年中,人们为了能够收集、存储和处理大量的业务数据而开发了数据库管理系统(DBMS)。由于数据库系统的开发和使用,为企业记录和处理业务提供了极大的方便,使得这种技术得以迅速的发展和应用。但随着数据库系统记录和处理的数据越来越多,人们不再满足仅仅使用数据库系统来记录企业的业务活动数据和对数据进行简单处理,人们需要对企业业务活动的数据进行各种分析,以便找出影响企业成功的要素和企业未来的发展趋势。而如何将这些大量的数据转化为对企业管理者有用的,可供辅助决策的信息,也逐渐成为研究的热点。

2 数据仓库技术

2.1 数据仓库的定义

数据仓库的概念是由W.H.Inmon博士在1992年出版的《建立数据仓库》(Building the Data Warehouse)一书中提出的。他在书中对数据仓库是这样说明的:“数据仓库(data warehouse)是一个面向主题的、集成的、稳定的、不同时间的数据集合,它用于支持经营管理中的决策制定过程。”[1]实际上可以理解为数据仓库就是从多个数据源收集数据,存储于一个统一的数据模式下的数据体。从本质上讲,数据仓库就是一种信息集成技术。数据仓库从多个信息源中获取原始数据,经整理加工后,存储在数据仓库的内部数据库中,通过向用户提供访问工具,向数据仓库用户提供统一、协调和集成的信息环境,从企业的角度来支持用户的决策和帮助企业的管理进行深入综合分析。[2]

2.2 数据仓库与数据库的区别

数据仓库是在数据库的基础上发展起来的,因此数据仓库与数据库有着本质的区别,主要体现在以下几个方面:

(1)数据库中存储的都是当前使用的值,而数据仓库的建立是一个企业日积月累的建立过程因而其存储的数据都是一些历史的、存档的数据,另外由于要提供分析决策,还需要存储一些归纳的、计算的数据;

(2)数据库的数据主要是面向业务操作程序的,可以重复处理,主要是用来进行事务处理的。而数据仓库却是面向主题,主要是用来分析与应用的;

(3)数据库的数据结构是高度结构化的,比较复杂,适合于操作计算。而数据仓库的数据却比较简单,适合于分析处理;

(4)数据库中的数据的使用频率是很高的。数据仓库中的数据的使用则不是很高;

(5)通常对数据库中的事务的访问,只需要访问少量的记录数据。而对数据仓库的事务的访问就可能需要访问大量的记录;

(6)对数据库的响应时间一般要求比较高,通常是以秒为单位。而对数据仓库的响应时间要求则较低,通常比较长。

2.3 数据仓库的主要特点

从数据仓库的定义我们可以看出,它的特点主要体现在以下几个方面:

(1)数据仓库是面向主题的。也就是说数据是按其自然属性来进行组织的。主题通常是在一个较高层次上将数据归类的标准,每个主题对应一个宏观分析领域。比如,在学生的学籍管理成绩系统中,数据常被组织成“学生”、“课程”、“学生成绩”等关系模式,描述了各个学生、各门课程以及学生学习各门课程的详细信息。而在数据仓库中,我们则要对学生、课程、学生成绩进行综合分析,以便进行决策,因而应重新组织数据,完成业务数据向主题数据的转换。主题的抽取则应根据分析的要求进行确定。[3]如针对学生成绩分析数据仓库就可以设置以下主体:学生、课程、教师等。

(2)数据仓库是集成的。数据在进入数据仓库之前,必须经过加工与集成。对不同来源的数据进行数据结构统一编码。统一原始数据中的所有矛盾之处,如字段的同名异义,单位不统一,字长不一致等情况。即将原始数据结构做一个从面向应用到面向主题的大转变。[4]

要将决策分析建立在数据仓库之上,数据系统就需要定期从各院系、各部门抽取适宜于进行决策分析的细节数据,然后按照不同的粒度要求汇总到各级数据集市或数据仓库中。以“教师”主题为例,关于教师的完整信息是分散在各个院系、各部门的,每个部门都没有关于“教师”的完整信息,而且这些数据可能是不一致的。比如:“教师”主题中的教师编号在“图书管理系统”和“科研信息系统”中可能不同;性别在各部门中的表示方法也可能不同,在“科研信息系统”中用“M”、“F”来表示,而在“教师基本信息系统”中用“0”和“1”来表示。在经过了面向主题的数据组织后,消除同名异义、异名同义、单位不统一、字长不统一等数据不一致之处,按照元数据的定义形成关于教师的完整、一致的信息集合。[3]

2.4 数据仓库的体系结构

数据仓库系统通常由数据仓库(DW)、仓库管理和分析工具三部分组成,其结构形式如下图所示。

(1)源数据:数据仓库的数据来源多个不同的数据源,它可以是通常的数据库系统,也可以是非传统的数据,如文件、HTML文件、知识库等。

(2)仓库数据管理系统(DWMS):仓库的管理主要包括对数据的案例、归档、备份、维护以及恢复等工作,这些工作需通过数据仓库管理系统来完成。

(3)分析工具:数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含两种工具。一种是查询工具,用来对分析要求的查询。一种是挖掘工具,用于在大量数据中进行挖掘有规律性的知识。

2.5 数据仓库的实施

数据仓库的开发要以数据为中心,可大体分为以下几个步骤:

(1)明确目标,制订计划

根据需求确定相应的数据仓库的设计目标,并制定实施计划,用发展的眼光创立架构方案。

(2)建立技术环境

建立支撑平台建立技术环境,选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具等等。

(3)确定主题

通过对用户、管理层的需求进行深入的了解与分析,然后对这些需求中比较迫切、重要程度初步确定几个主题。

(4)概念模型设计

概念模型设计是主观与客观之间的桥梁,通过概念模型,可以用适合计算机世界的模型和语言对客观世界中的问题进行具体的描述。主要包括事实的定义、维度的定义和级别的定义。所谓事实,即指决策者分析的目标数据,可以帮助决策者了解全局,作出相应决策。也称为度量值。而维度,即指事实的属性信息。也称为考察事实的角度。

(5)逻辑模型设计

逻辑模型的设计是指根据事实、维度和级别之间的关系确定所采用的架构。通常采用星型构架进行设计,也就是以事实表为中心,四周与每个维度相关联,不存在维度与维度相关联的情况。

(6)物理模型设计

物理设计主要完成开发决策工具的选择、数据表的创建与索引的创建。数据表主要包括事实表与维度表的创建。一般对维度都创建了主键索引,对事实表则设置了组合主键索引。

(7)数据转换程序

实现从数据源中抽取、清理、聚集、转换数据并加载数据等过程的设计。

(8)定义元数据

即定义数据的意义及系统各组成部件的关系。

(9)运行与维护

管理数据仓库环境,定期进行数据的更新,使数据仓库正常运行。

3 数据仓库技术的应用

目前,国内数据仓库的需求主要表现在如下方面:

(1)由于银行商业化的步伐正在加大,各大、中型银行开始重新考虑自身的业务,特别是加强对自身的信贷风险的管理,因而对有关信贷风险管理和风险规避的决策支持系统的需求逐渐多了起来。

(2)由于电子商务的迅速发展,不少网站开始考虑如何提高对顾客的忠诚度,为客户提供更进一步的“贴身”服务。

(3)各大型企业如移动通信局等开始考虑着手进行决策支持以及数据仓库规则。

4 结束语

虽然目前国内的数据仓库市场经过了多年的发展,但是比起国外大企业所建的巨型企业级数据仓库来讲,还只能算是刚刚起步,还存在很多的不足之处,主要表现在计算机应用水平较低,无法提出决策支持需求,所以很多企业无法马上实施数据仓库。

但相信随着相关计算机技术的进步,数据仓库技术也一定能得到不断的发展,为企业在商业竞争中提供更好的帮助。

参考文献:

[1] w.H.Inmon.数据仓库管理[M].北京:机械工业出版社,1999,8-9.

[2] 钟爱军,宋麒.基于数据仓库的医院决策支持系统的构建.数理医药学杂志,2007,13-19.

[3] 孟跃红,黄智.数据仓库技术在高校教育管理中的应用.徐州师范大学学报,2003,18-21,33-40.

[4] 陈文伟,黄金才.数据仓库与数据挖掘.北京:人民邮电出版社,2006,2.

上一篇:任务型的教学模式在高职计算机教学中的应用 下一篇:网络流媒体的研究及其广告应用