再谈数据仓库

时间:2022-10-30 11:59:47

再谈数据仓库

在建立数据仓库平台的同时,就应开始建立数据管控的平台与流程,努力和企业内部的组织架构匹配。

在当前IT技术日新月异的今天,数据仓库可以算是个非常老的概念了。从上世纪80年代国外开始出现专门的设备,基于更适于数据处理与数据分析的技术来建立信息分析系统—这可以看成数据仓库的前身,到90年代Bill Inmon正式提出数据仓库的定义;从数据集市(Data Mart)、操作数据存储(ODS)到企业级数据仓库(EDW)的流派之争,到开始重视数据的展现与应用、数据管控;从传统的结构化数据,到半结构与非结构化数据,数据仓库相关领域已经有了长足的发展与进步,而过去5年左右的发展,更是超过了之前差不多20年的累积,并且正以越来越快的速度向前发展。

数据仓库一体机崛起

从技术平台的角度来看,数据仓库一体机由于其集成度高、性能优越、容易管理、总体拥有成本低、扩展方便并且有非常好的线性扩充能力,正在被越来越多的企业所接受,并且逐步取代原来所采用的通用数据库与服务器系统。业界最早推出软硬件集成的数据仓库系统是Teradata,这也可以算是一体机的最早实现。

虽然早在上世纪80年代Teradata在欧美市场就已经有了不少案例,但1997、1998年引入国内市场时,还是很难被国内企业接受,一句“不开放”的质疑,往往就能把Teradata排除在选型之外。但现在,各主要数据库厂商都先后推出了软硬件集成的一体机,并且先后引入到了国内市场。现在,一个企业选择数据仓库平台如果不考虑一体机,IT部门还要认真考虑一下,找出几条能说服自己的理由。

世界著名的第三方分析机构Gartner Group曾经针对一体机发表过一篇分析报告“数据仓库一体机是否在你的未来战略布局?如果没有请考虑它(Are Data Warehouse Appliances in Your Future? Plan On It!)”。在这篇报告中,Gartner对一体机的特点以及它在未来数据仓库市场的发展趋势做了非常详细地分析。而在另一篇分析报告“Magic Quadrant for Data Warehouse Database Management Systems(数据仓库DBMS的魔术象限分析)”中,Gartner对包括一体机在内的各种数据库管理系统,在数据仓库环境下的优缺点做了比较中肯地分析和对比。针对数据仓库负载的特点,这些产品大都采用了海量并行处理即MPP技术(Massive Parallel Processing)。Teradata是最早引入中国市场的MPP数据库产品,经过多年的努力,在国内金融行业的数据仓库市场取得了主导地位。IBM、EMC Greenplum和Oracle Exadata急起直追,尤其是IBM和Oracle,借助其全球领先的技术研发能力和庞大的营销渠道,在国内市场已经获得了广泛的关注,并建立了不少成功案例。

重视数据管控

从国内实施数据仓库的方法来看,直到2007年以前,那时的做法一般都还是先建立一个数据仓库的平台,把企业内各个数据源的数据按照一定的模型和业务规则进行整合,形成所谓的企业级单一视图(Single version of the truth),再在此基础上建立各种分析型应用。随着数据仓库在企业内各部门和各层次应用的普及,人们越来越受到数据质量的困扰,甚至有人产生了不解决数据质量问题、数据仓库就没有价值的极端想法。事实上,数据本身并无好坏之分,当它不符合业务规则时,就产生了数据质量的问题。而形成这种问题的原因是多方面的,可能是业务系统不断升级过程中产生的,可能是业务系统由不同厂商开发而没有遵循统一标准造成的,可能是使用过程中由于流程不完善造成的,也可能是操作人员造成的。为了解决这些问题,人们开始引入元数据解决方案,以便对数据仓库中的数据、相互之间的关系、数据变动对上下游的影响、业务流程等有更全面的了解,并且进行统一的维护与管理;引入数据质量解决方案,通过技术手段来更方便、更系统、更全面的发现数据质量问题,找出产生问题的原因,从而提出纠正方案;推出数据标准,以便在企业范围内建立一套适合各业务部门的统一信息标准,规范各个业务系统的建设,并通过不断地更新和维护来适应业务的发展。这三方面的内容,就是我们现在所强调的数据管控。

5、6年前,人们对数据管控的认识还不太全面,往往是建立数据仓库平台并使用一段时间、积累了很多问题后才逐步考虑数据管控的相关内容。近2年来,一方面人们对数据管控越来越重视,另一方面实施的方法论也越来越成熟,因此,我们在建立数据仓库平台的同时,就开始建立数据管控的平台与流程,努力和企业内部的组织架构匹配,并在后续的发展过程当中逐步加以完善,使之更适应企业的业务流程与发展。

王闯舟

目前担任文思海辉软件技术有限公司高级副总裁,负责其商业智能事业部,重点为国内客户提供数据仓库与商业智能领域的解决方案、咨询和项目实施工作。同济大学自动控制专业研究生毕业,超过20年的IT从业经验。

上一篇:把握“三度”化静为动 下一篇:陕西地区国家大学科技园发展概况调查