商务智能系统中的元数据管理策略研究

时间:2022-08-27 11:27:02

商务智能系统中的元数据管理策略研究

摘要:随着数据仓库的数据质量问题越来越引起重视,更进一步让人们认识到了元数据管理的重要性。元数据管理技术和元数据管理策略都是进行成功的元数据集成所必需要重视的研究内容。该文从元数据来源、元数据范围、元数据分类、元数据用户、元数据集成项目开发方法、元模型和元数据标准、元数据管理系统的实现途径等方面阐述了商务智能系统中的元数据管理策略。

关键词:商务智能;元数据管理策略;CWM

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)28-0178-03

Research on Metadata Management Strategies in BI System

YU Qian-cheng

(Computer College, Yinchuan 750021, China)

Abstract: With the data warehouse data quality issues more attention, people realize the importance of that the metadata management. Metadata management technology and strategies are needed in successful integration of metadata. This article describe metadata Management strategys,include metadata sources, the scope of metadata, metadata classification, metadata users, metadata integration project development methods, meta model and metadata standards, the realization means of metadata management system.

Key words: metadata management strategy; business intelligence; CWM

1 引言

以数据仓库为核心的商务智能(BI)技术日益受到业界重视,许多BI系统己经投入使用,带来了巨大的效益。但是由于各大开发商采用不同的数据仓库元数据标准和管理策略,使得数据仓库之间的数据集成与共享十分困难,由此引发了人们对元数据管理和应用的研究。

元数据管理不是一个单纯的技术问题,因为元数据管理的很多内容需要依靠管理制度、流程、其它辅助工具以及人工参与来完成。元数据管理技术和元数据管理策略都是进行成功的元数据集成所必需要重视的研究内容。

2 元数据概述

2.1 元数据

元数据是“关于数据的数据”或“关于数据的结构化数据”,即关于数据的内容、质量、状况和其他特性的信息。[1]

商务智能系统中,元数据负责描述数据及其环境。元数据主要的用途是:使用户(最终用户和开发人员)无需详细了解表、列和查询/报表,就可以获取信息。

2.2 元数据的作用

元数据是使数据发挥作用的重要条件之一,它帮助数据生产单位有效地管理和维护数据;提供通过网络对数据进行查询检索的方法或途径,以及与数据交换和传输有关的帮助信息;帮助用户了解数据,以便就数据是否满足其需求作出正确判断;提供有关信息,以便用户处理和转换接受外部数据;提供数据生产单位数据存贮、数据分类、数据内容、数据质量、数据交换网络及数据销售等方面的信息,便于用户查询检索。

元数据还说明数据的上下文关联、数据对用户的意义及数据的目的等。它使每个数据都具有了一定的含义。

元数据的最为重要的特征和功能是为数字化信息资源建立一种机器可理解框架。

2.3 元数据的重要性

没有元数据,或没有语义,我们就没有办法知道数据对象所代表的意义。例如,程序中出现的一个整型值“39”可以代表几乎任何意思。可以说如果没有高质量的元数据,数据资源就毫无用处。

元数据既描述数据的结构和位置,也描述数据元素之间的关联。元数据是一种粘结剂,用于把整个企业信息工厂各个构件组合到一起。元数据为组织中的所有信息资源提供了一张导航图。

元数据管理不得当:1)信息将被丢失或处于隐匿状态而难以被用户使用;2)不能对业务进行有效支撑;3)数据集成将十分昂贵;4)终端用户要识别相关的信息将十分困难,最终用户将失去对数据的信任。

2.4 元数据仓储

元数据仓储是存储元数据并控制对其元数据的访问、记录其用法以及从这些元数据中生产新组件的软件系统。元数据的中心控制和存档是元数据仓储的研究范围。

一旦感兴趣的数据确定下来,元数据仓储就可以帮助用户了解从数据集市和EDW获取数据的路径与方法。元数据仓储可以作为元数据交换的中介。

3 商务智能系统中的元数据管理策略

一个元数据管理策略是一个完整定义,其中不仅要定义元数据集成能够做到什么,还要定义在元数据层确保对环境进行成功集成所需要的管理策略、需求以及约束。

想要进行成功的元数据集成,必须建立一个一致且合理的管理策略。由这个管理策略为目标环境中的元数据集成、共享和重用制定目标和需求。[2]

Gartner公司在一份报告中强调,一个合理的元数据管理策略是数据仓库ROI(投资回报)的重要决定因素,而元数据工具和标准只是更广阔前景的一部分。因此设计元数据管理方案必须结合企业的元数据管理策略。

3.1 元数据的来源

元数据来源广泛, 一般元数据的创建者可以是信息资源的创作者、信息系统的管理者和提供信息服务的机构三类。

3.2 元数据分类

3.2.1 技术元数据和业务元数据

元数据一般根据数据的属性分为技术元数据和业务元数据。

1)技术元数据:根据元数据在系统应用上的作用,又可以将技术元数据再细分为两种类型:

开发(Build-Time Metadata)元数据:这类元数据是在构建数据仓库应用(例如:数据转换的开发)中和数据库设计和构建中创建并使用的。它是大多数控制元数据和使用元数据的源。

控制元数据(Control Metadata):控制元数据也称管理元数据。这类元数据是用于控制和管理数据仓库环境的运作。通常又分成两种:在数据装载进程执行中使用的元数据和在数据仓库环境管理中创建并使用的元数据。前者由数据源的物理数据结构和ETL数据清洗/转换规则组成,后者由数据换算元数据和数据字典对照元数据组成。

技术方面的元数据内容会来源于多个地方:如数据库目录、ETL工具、前端展现工具。例如:映射规则、源与目标数据库、数据清洗规则、版本和信息。

技术元数据示例:数据的技术结构;源系统字段标识;编码/引用表转换;物理和逻辑数据模型;域值;操作型系统的表结构和属性;抽取历史;EDW系统归档;程序名和描述;版本维护清洗规则;用户报表和查询访问模式、频率以及执行时间。

2)业务元数据:使用元数据(Usage Metadata)-这类元数据是数据仓库环境的关键元数据,是用户访问用以了解业务数据途径。通常,被称为“业务元数据(Business Metadata)”。业务元数据的内容来源包括多个地方:用例建模(Case Modeling)工具,控制数据库,数据库目录和ETL工具。另外的业务元数据,例如对象联接关系或数据质量指标,是用元数据库管理工具直接输入的。

3.2.2 结构化元数据和非结构化元数据

组织的技术元数据和业务元数据有两个主要的来源:结构化元数据源和非结构化元数据源。

结构化元数据源是机构的决策者已经讨论、存档并达成一致的元数据源。这些来源中的元数据通常保存在工具和文档中。

非结构化元数据源处于标准化模型和工具之外。大部分都没有记载。非结构化元数据源通常是业务相关的,所以是汇集良好业务元数据的关键所在。来自于非结构化元数据源的元数据必须经过归档和形式化,并在决策支持系统中得到精确反映。从这一方面来看,非结构化源被转换成了结构化源。

以下重点列出了需要特别关注的非结构化元数据源:数据责任(data stewardship);决策支持载人和刷新历史;业务规则;业务定义;命名规范;竞争对手产品列表;某些转换和概要。

3.3 使用元数据的用户

BI系统元数据的用户分为三类:BI设计开发人员(包括领域建模人员、数据建模人员、Mapping人员、系统架构师、数据仓库工程师、前台工程师等)、BI系统运维管理人员(包括前端应用管理员和数据管理员)、BI系统业务用户(包括业务分析人员、企业/部门管理者、终端业务用户)。

3.4 元数据集成项目开发方法

元数据管理贯穿于BI系统的全过程,元数据管理的实施方法与BI系统的开发方法存在很大程度的一致性,即融合了基于构件的开发方法、基于商用软件包的开发方法COTS和螺旋迭代式开发方法等。

3.5 元模型和元数据标准的选择

不同的迭代过程最终能紧密的整合在一起,是因为采用的是同一个元模型。元模型是指用于存储元数据的对象或关系型物理模型。元模型是描述元数据的抽象语言。

全局元数据仓储和局部元数据仓储具有一致的元模型。无论是业务还是技术元数据的内容,都应该是基于选择的元数据库工具的元模型的,可能是扩展元模型的子集或完整子集。

由于商务业智能系统系统涉及到大量业务系统的集成,因此,如果没有统一的元模型标准支持,实施各子系统元数据的有效集成是很困难的。标准的元数据模型也称元数据标准。元数据标准实现了两个重要目标:工具间共享元数据、工具间互操作。

近几年,随着元数据联盟MDC 的开放信息模型OIM 和OMG 组织的CWM 标准的逐渐完善,以及MDC 和OMG 组织的合并,为数据仓库厂商提供了统一的标准,从而为元数据管理铺平了道路。

3.6 元数据管理系统的实现途径

当前元数据管理系统的实现主要可以有三种途径:1.手工管理存放在文档中的元数据,采用文档服务器建立元数据管理系统。这是目前元数据管理技术不成熟现状下很多中小规模BI项目常用的元数据管理系统实现途径,手工管理元数据的缺点是元数据应用复杂程度高,元数据管理和应用效率低;2. 购买元数据管理工具建立元数据管理系统,这种方式的问题在于实现成本较高,而且现有的元数据管理工具并不能够真正实现元数据的无缝集成;3.自己开发元数据管理系统。由于元数据管理工具开发的技术复杂度很高,所以这种方式的有很大的技术风险和成本风险。

随着元数据管理技术的发展和CWM规范被工具厂商的广泛接受,元数据管理工具的功能将越来越完善,购买现成的元数据管理工具将成为最佳选择,文档服务器则会为元数据管理提供有益的帮助。

4 结束语

由于元数据管理的复杂性,元数据管理的很多内容仍然需要依靠管理制度、流程、其它辅助工具以及人工参与来完成。

Gartner公司在一份报告中强调,一个合理的元数据管理策略是数据仓库ROI(投资回报)的重要决定因素,而元数据工具和标准只是更广阔前景的一部分。因此设计元数据管理方案必须结合企业的元数据管理策略。

参考文献:

[1] (美)Poole J.公共仓库元模型开发指南[M].彭蓉,译.北京:机械工业出版社,2004.

[2] (美)Marco D.元数据仓储的构建与管理[M].张铭,译.北京:机械工业出版社,2004.

[3] Version mon Warehouse Metamodel(CWM) Specification[S],2001.

[4] v2.1 formal.MOF 2.0/XMI Mapping Specification[S],2001.

[5] Mark Chaffin, Brian Knight. SQL Server 2005 Metadata White Paper[S],2005.

上一篇:基于Ad hoc网络的入侵检测技术 下一篇:多点冰温检测与数据采集