关于数据仓库中元数据管理技术的探讨

时间:2022-10-03 07:36:14

关于数据仓库中元数据管理技术的探讨

数据仓库之父Bill Inmon 在《Building the Data Warehouse》一书中对数据仓库进行如下定义:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Management Support)。这也是被广泛接受的定义。

随着科技、商业的快速发展,企业在业务处理、运营管理过程中产生了海量的数据,这些数据在整个企业运营过程中起着十分重要的作用。于是以决策支持为目的的数据仓库技术孕育而生。数据可以转化为信息,满足企业各级业务、管理人员了解企业运营状况以及监管部门实施监管的需求。但是如果不对这些数据进行有效的管理,它们的价值得不到很好体现,有时候甚至会给运营管理带来负面作用。为使数据“包袱”变为“金矿”,数据管控体系的构建就变得尤为重要和迫切。数据管控的内容主要包括数据标准、元数据、数据质量、数据安全等,其中元数据是从数据形态的角度去描述数据仓库中的数据。元数据是数据仓库的核心和灵魂,它联系于所有的数据仓库建设过程和工具使用情况。因此,有效的元数据管理是数据仓库项目成功的关键。

按照传统的定义,元数据是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员,数据仓库的开发人员和数据仓库应用的使用人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据。

按用途的不同元数据分为两类:技术元数据和业务元数据。技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的重要辅助信息;技术元数据主要供技术人员使用。它主要包括以下信息:数据仓库结构的描述,包括仓库模式、视图、维、层次结构和导出数据的定义,以及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式;汇总用的算法,包括度量和维定义算法,数据粒度、主题领域、聚集、汇总、预定义的查询与报告;由操作环境到数据仓库环境的映射,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则、安全(用户授权和存取控制)。业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据;业务元数据主要供业务人员使用。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息:数据标准信息,应用指标和维度描述,业务功能描述,业务需求,以及这些业务视图与实际的数据仓库或数据库、多维数据库中的表、字段、维、层次等之间的对应关系。另外,随着元数据的发展,出现了一类特殊的元数据-管理元数据。管理元数据是指涉及开发过程中的日志、需求管理、设计等管理基础的元数据信息。

元数据管理主要通过管理平台这种技术手段,结合相关方法、流程来管理元数据,保持元数据能真实客观的反映数据仓库建设状况;技术人员通过该平台能查看数据仓库内的元数据资料,业务人员则将元数据平台作为使用手册,能够了解业务元数据信息和其使用状况,使业务元数据发挥更大价值。一个完整的元数据管理平台,应该涵盖以下各方面内容:元数据存储、元数据采集调度、元数据版本管理、元数据导入/导出、元数据前端展示、元数据检索、元数据分析和元数据安全管理。

在数据仓库系统中,各类元数据无处不在,贯穿数据仓库构建过程的始终,在这个过程中能够起到承上启下的作用,具体体现在以下几个方面:帮助用户理解数据的意义。数据仓库中包含大量用户关心的各类元数据,这些元数据散落在数据仓库的各处,将各类元数据进行加工并展现,使用人员不仅能够看到每项元数据的细节资料信息,也能看到这些元数据间的相互关系,从而掌握数据仓库的建设情况,了解元数据信息及其使用状况,使业务元数据发挥更大价值。辅助数据质量管理。元数据主要通过技术元数据(数据库表、字段等结构化信息)对数据质量管理进行支撑的,体现在如下几个方面:元数据作为仓库资料的拥有者,可以向数据质量提供技术元数据的资料信息,包括结构化信息和计算方法等,帮助仓库的使用者更好的发现数据中存在的质量问题,并通过影响(血缘)分析功能,确定和问题相关联的对象范围;元数据向数据质量提供检查对象结构信息,协助数据质量平成检查规则检查对象的配置工作;元数据向数据质量提供ETL 任务信息,协助数据质量平成检查规则调度的配置工作。辅助数据生命周期管理。数据生命周期主要涵盖的阶段包括数据定义、数据创建、数据存储、数据加工、数据利用、数据共享和数据销毁,其中,除了数据定义外,其它各阶段中的数据都是可以被元数据系统管理和使用的。提供系统监控管理功能。元数据包含了数据仓库环境中元数据的当前映像和历史版本映像,能够帮助使用者跟踪管理元数据生命周期各阶段的数据以及每个阶段各时期的数据,最终达到帮助使用者更好理解仓库建设的进展和变迁情况。同时,元数据系统提供的影响分析功能有助于跟踪仓库环境数据库对象结构变化对其他数据库对象带来的影响,向仓库开发和运行维护人员提供了有效的手段来更好的控制和管理数据仓库的建设。

(作者单位:沈阳大学)

上一篇:加强人性化管理,激发铁路职工队伍的积极性和活... 下一篇:和谐教育视野下的高职德育教育