某银行的企业级数据仓库设计探究

时间:2022-05-01 02:18:12

某银行的企业级数据仓库设计探究

摘 要 逻辑数据模型设计是数据仓库项目的核心基础。在概念模型设计中,已经确定了几个基本的主题域,即所谓概念模型。它们是对真实世界中的概念的描述,是实实在在的事物概念。数据仓库的设计方法是一个逐步完善的过程,所以逻辑数据模型设计阶段需要进一步扩展概念模型设计中所确定的主题域。把业务需求用规范化的模型和关系表进行描述,并编制成文档,以解决定义上的冲突,为数据仓库物理数据模型的设计奠定坚实的基础。

【关键词】银行 企业级 数据仓库

1 整体流程

按照软件工程划分软件的生命期,一般分为四个阶段,即需求分析、系统设计、系统开发、上线与维护。

2 需求分析阶段

2.1 业务调查

业务调查阶段主要任务:确定业务部门的要求;准备业务访谈与调研计划;通过业务访谈确定业务目标和方向;对应用系统进行策略性规划;业务需求调研;进行可行性研究,提出可行方案,包括资源、成本、效益、进度等,并制定粗略的实施计划。业务调查的关键是业务人员积极参与和可行性研究。

2.2 需求编写

编写人员要求:各部门的资深业务人员。

编写前准备:数据仓库基本概念培训、数据仓库应用范围、应用案例培训、业务部门内部沟通。

需求编写工作:确定模板,确定需求,对每个需求描述目的与用途。

2.3 业务需求分析

召开业务需求分析会议;确定软件功能、性能、可靠性、接口标准等要求,根据功能要求进行数据流程分析;提出初步的系统逻辑模型,并据此修改项目实施计划;在数据调研的基础上,分析需求对数据的要求,判断数据的支持程度。数据决定了需求实现的可能性,也决定了需求实现的优先级。

3 设计阶段

3.1 逻辑数据模型设计

3.1.1 逻辑数据模型在仓库中定位

逻辑数据模型设计是数据仓库项目的核心基础。在概念模型设计中,已经确定了几个基本的主题域,即所谓概念模型。它们是对真实世界中的概念的描述,是实实在在的事物概念。数据仓库的设计方法是一个逐步完善的过程,所以逻辑数据模型设计阶段需要进一步扩展概念模型设计中所确定的主题域。把业务需求用规范化的模型和关系表进行描述,并编制成文档,以解决定义上的冲突,为数据仓库物理数据模型的设计奠定坚实的基础。

3.1.2 逻辑数据模型构成

逻辑数据模型反映的是系统分析设计人员对数据存储的观点,是根据业务规则确定的,关于业务对象、业务对象的数据项及业务对象之间关系的基本蓝图。逻辑数据模型的内容包括所有的实体和关系,确定每个实体的属性,定义每个实体的主键,指定实体的外键,需要进行范式化处理。逻辑数据模型的目标是尽可能详细的描述数据,并不考虑数据在物理上的实现。

对于银行的企业级数据仓库设计来讲,为满足不同业务需求,一要在作为基础数据平台设计基础的逻辑数据模型中存储重要的数据元素及其相互关系,并在设计过程中保持一个统一的业务定义;二要体现清晰、严谨的结构化、模块化设计思想,能够以一种清晰的表达方式记录、跟踪重要数据元素以及变动。

逻辑数据建模不仅会影响到数据仓库设计的方向,还会影响到数据仓库的性能效率。如果在实现逻辑数据模型时投入得足够多,那么在物理数据模型设计时就可以有许多可供选择的方法。

数据仓库的每个主题都是由多个表实现的,这些表之间依靠主题的公共码键联系在一起,形成一个完整的主题。用关系型数据库实现数据仓库信息模型时,目前较常用的两种建模方法是所谓的第三范式(3NF,即Third Normal Form)和星型模式。

范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化。在数据仓库的模型设计中目前采用第三范式,它有着非常严格的数学定义。如果从其表达的含义来看,一个符合第三范式的关系必须具有以下三个条件:每个属性的值唯一,不具有多义性;每个非主属性必须完全依赖于整个主键,而非主键的一部分;每个非主属性不能依赖于其他关系中的属性。因为星型模式查询效率要比雪花模式高的多,所以比较多的是采用星型模式设计多维数据关系。

4 物理数据库设计

4.1 物理数据库设计的概念

物理数据库是在逻辑数据模型的基础上,考虑各种具体的技术实现因素,进行数据库体系结构设计,实现数据在数据库中的存放。首先要全面了解所选用的数据库管理系统,特别是存储结构和存取方法。了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要求等。了解外部存储设备的特性,如分块原则,块大小的规定,设备的I/O特性等。

4.2 物理数据库设计的流程

确定数据的存储结构

确定索引策略

定义外键用于确定表之间的关系

基于用户的需求进行范式化

4.3 索引策略

数据仓库的数据量很大,因而需要对数据的存取路径进行仔细的设计和选择。由于数据仓库的数据都是不常更新的,因而可以设计多种多样的索引结构来提高数据存取效率。

在数据仓库中,设计人员可以考虑对各个数据存储建立专用的、复杂的索引,以获得最高的存取效率,因为在数据仓库中的数据是不常更新的,也就是说每个数据存储是稳定的,因而虽然建立专用的、复杂的索引有一定的代价,但一旦建立就几乎不需维护索引的代价。

5 总结

总之,星型模式是一种多维数据关系,它由一个事实表和一组维表组成。每一个维表都有一个维作为主键,所有这些维则组合成事实表的主键。与星型模式类似的还有一种设计方式是雪花模式,它也是一种在关系数据库中实现多维数据关系的方式,与星型模式相区别的是它的维表结构与星型模式不同。星型模式中同一维度的不同层次位于一张维表中,维表由唯一主键和事实表关联,雪花模式中同一维度中的不同层次位于不同的层次表中,最低层次表与事实表关联,各个层次再分别和比自己高一级的层次表关联。

作者单位

海南师范大学计算机科学与技术学院软件工程系2010级软件工程班 海南省海口市 570100

上一篇:试论电镀铜技术在电子材料的应用 下一篇:论电子政务、电子商务与电子社区建设的统一