浅论数据仓库技术

时间:2022-02-17 07:07:00

浅论数据仓库技术

【摘要】随着网络技术的发展,数据仓库技术的应用十分普遍。本从国内外目前数据仓库的发展现状入手,介绍了数据仓库的相关技术,数据仓库可变性的特点以及数据仓库在企业决策中的重要性。在此基础之上展望了数据仓库发展。

【关键词】数据仓库;可变性;决策;技术;发展

中图分类号: C37 文献标识码: A 文章编号:

一、前言

随着计算机科学与技术的飞速发展,数据库、计算机网络和自动控制系统等被广泛用于企业管理、政府办公、科学研究和工程开发等领域,产生的数据量急剧增加,海量数据层出不穷。为了处理数目巨大的数据,数据仓库应运而生。数据仓库的应用也十分广泛,并在不断的发展。

二、目前国内外发展现状

在数据库技术的当前及未来发展里程中,数据仓库以及基于此技术的商业智能无疑将是大势所趋。IBM的实验室在这方面进行了10多年的研究,并将研究成果发展成为商用产品。除了用于OLAP(联机分析处理)的后台服务器DB20LAPServer外。IBM还提供了一系列相关的产品:包括前端工具,形成一整套解决方案。其它数据库厂商在数据仓库领域也毫不示弱方法各有不同。Informix也是类似,在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件Advanced Decision Support Option,OLAP选件扩展并行选件Extended Parallel Option等,并认为这种体系结构严谨,管理方便,索引机制完善,并行处理的效率更高。其中数据仓库和数据库查询的SQL语句的一致使用户开发更加简便:而微软则是在其SQIServer7.0中集成了代号为Plato柏拉图的OLAP服务器,与上述公司不同的是,Sybase提供了专门的服务器0LAP Sybase lQ,并将与数据仓库相关工具打包成Warehouse Studio。

从中国的数据库市场来看,大部分数据库系统的建立是用来进行传统的OLTP业务。也有一些企业建立了数据仓库系统,但真正发挥效用的却不多见。和TCP/IP,SMTP)Java等相比。尚不存在可靠的、完善的、被广泛接受的数据仓库标准,影响了数据仓项目的实施。

三、数据仓库的相关技术

1、异种数据源集成

企业在进行经营分析与决策支持系统建设时必须将遗留系统(Legacy System)进行高效全面地集成,由于遗留系统是在企业发展的不同时期建设的往往缺乏全局的规划,所以常表现为不同的操作系统平台、不同的数据库平台、不同的网络通信机制等等,形成了所谓的“信息孤岛”。

数据源分为在线数据源和离线数据源,在线数据源是指允许在线抽取的业务数据源,如营业数据,离线数据源是指不允许直接在线抽取的数据源,如计费详单数据,采用以脱机平面文件数据的格式以FTP方式集成进本系统。

2、ODS层的设计

操作数据存储ODS(Operation Data Storage)是一个集成了来自不同数据库数据的环境。其目的是为终端用户提供一致的企业数据集成视图。它可以帮助用户轻松应对跨多个商业功能的操作挑战。它是面向主题的、集成的、实时的数据存储。

3、TL过程的设计

数据抽取、转换和加载,是数据仓库实现过程中,进行数据由数据源系统向数据仓库加载的主要方法,整个数据处理过程如下:数据抽取:从数据源系统抽取数据仓库系统需要的数据。数据抽取采用统一的接1:3,可以从数据库抽取数据,也可以从文件抽取,对于不同数据平台、不同的源数据形式、不同性能要求的业务系统以及不同数据量的源数据,可能采用的接口方式不同;数据转换:数据转换是指对抽取的源数据根据数据仓库系统模型的要求,进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据和信息模型的一致性和完整性,并按要求装入数据仓库;数据加载:数据加载就是将转换后的数据加载到数据仓库系统中。数据加载采用数据加载工具,也可以采用API编程进行数据加载。

四、数据仓库可变性

数据仓库不是—个静止不变的产品,而是一个动态的,不停变化的过程。这个过程为全企业的管理系统奠定信息基础。该系统可用来测算利润、管理和分析风险、进行市场分析、帮助规划和加强客户服务计划及市场推进计划。与现买现装的产品不同,成功的数据仓库实际上是一个过程。它要求公司仔细分析本公司的基本原则,决定需要哪些运作数据和外部数据源,然后利用一种严密的方法把所有的数据集中起来,再变换成有用的信息。

数据仓库过程一旦开始实施,就没有终结的时候。它的可用性和中肯性在极大程度上来自于其信息的新鲜性。因此,公司必须不断对它进行更新,馈入新的统计信息和新的事务档案。

五、数据仓库的在企业决策中的重要性

数据仓库直接影响事关公司命运的决策。数据仓库是一种数据集成战略,目的是促进最终用户利用企业数据,同时保护公司的数据财富(关键任务的可操作数据)安全性和完整性。只要安排妥当,数据仓库就能发挥它的重要作用,即人们可以很快地作出决策。因此,数据仓库是实施公司战略的一种技术手段。

一般来说,构筑数据仓库是一个频繁的查阅过程,它可分为若干阶段,其中包括需求分析、数据仓库的设计、操作数据的提取、不相容数据的集成,数据仓库的装填、最终交付用户使用。在后续期内,还应该对数据仓库作定期更新。

六、数据库发展前景与展望

1、智能化

计算机科学主要目标是使计算机与人的界面尽量靠近人这边。因此。要尽量提高计算机的智能水平。智能化是计算机科学各个分支的研究前沿。在数据库方面,智能化的工作是将人工智能技术与数据库技术相结合,即演绎数据库知识库研究。目前的主要困难在于递归查询处理无法取得满意的性能,硬件技术的革命(大内存、并行机、高速存取的外存储器)将是提高知识库查询效率的重要因素。

2、多媒体

多媒体数据处理的困难很多,即使是一般的复杂对象目前也还不能很好地处理。多媒体数据的建模、存储和多媒体数据库的查询及查询处理等都是需要我们研究解决的内容。

3、网络化

信息分布方面主要是分布式数据库系统的研究。分布式数据库从20世纪70年代开始研究,但是一直没有出现商品化的分布式数据库系统,这说明了它的难度。当前比较好的具有数据分布特征的数据库管理系统是Client/Server体系结构的系统如:SYBASE,ORACLE7等)。但新的计算机应用又对它提出了新的要求,智能化、新型事务模型、多媒体数据的处理、高速信息通讯、数据源的高度透明性等将是新型的分布式数据库系统的重要研究内容。

4、与软件工程的结合

到目前为止,数据库设计与应用程序设计是分离的。并且在具体的应用系统开发中。往往由2个小组各行其事。其后果是一方面的优良设计不得不放弃,导致系统性能低下或用户要求无法满足。面向对象技术是二者结合的有效手段。但是,良好地结合还需要很长时间的努力。处理的数据越来越庞大、计算机网络越来越复杂、系统的智能水平越来越高是计算机系统发展的总趋势。因此,未来的信息管理系统的特征将是处理复杂对象、分布、智能。在复杂对象处理方面,面向对象数据库、多媒体数据库将会由于广泛的应用背景和强大系统实验而迅速发展。在数据分布方面,客户服务器数据库系统将快速发展,并在应用上取得良好效果。在智能化方面。数据库和人工智能将在各自的领域不断发展、不断取得新的成果。

七、结束语

目前数据仓库技术仍处于不断发展,并在实际应用中发挥了巨大的作用。为了更好的使用数据仓库技术,让其造福实际工作,应该全面认识数据仓库,并在实践中不断的发展完善数据仓库。

参考文献

[1]徐洁磐.数据仓库[M].机械工业出版社,2007.

[2]刘立波.数据仓库技术的研究与应用[J].计算机工程与应用,2002.

[3]陈京民主编.数据仓库与数据挖掘技术(第2版)[M].电子工业出版社,2007.

上一篇:浅谈桩锚支护体系的监测及数据分析 下一篇:论桥梁施工中的安全控制