数据仓库范文

时间:2023-02-28 10:05:46

数据仓库

数据仓库范文第1篇

关键词:数据仓库;原理;思想;应用;报表

中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (2011) 09-0000-02

Data Warehouse Design and Show

Zhu Mingjie

(Shanghai Economic and Informatization Commission,Information Center,Shanghai200003,China)

Abstract:With the information age,information resources in daily life plays an increasingly important,even indispensable plex information needs of the scientific method with its efficient data processing,and can quickly and effectively from a different point of view,to determine the information to improve the comprehensiveness of the information,accuracy,efficiency.With the development of technology,a deeper level of data warehouse applications,data warehouses demonstrating an important role in the information age.In this paper,data warehousing principles,ideas,and through reporting tools,data and charts on how the show has been superficial discussion.

Keywords:Data warehouse;Principle;Thinking;Applications;Report

一、数据仓库的原理

数据仓库,英文全名是Data Warehouse,也可缩写为DW或者是DWH。事实上,数据仓库这个名称并没有一个固定的、完全统一的定义。而现在被用的最广泛的应该属数据仓库概念的创造者W.H.Inmon在自己的作品中――《建立数据仓库》对数据仓库的定义:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。而后虽然学者对数据仓库的概念有着不同的定义,但是归根结底,在这些学者的观点中,都对数据仓库所持有的特征看法基本是一致的。

(一)数据仓库是面向主题的

主题就是在高层次上将数据进行归类,并与另一个分析环境想对应,这个分析环境也就是指在使用者通过数据仓库来进行决策时所最关注的对象。

(二)数据仓库是集成的

数据仓库中的数据是由各种不同、分散的初始数据根据所需要的数据进行的分析,筛选,提炼,最终通过加工整合而成,最终进入数据仓库。所以在建立数据仓库的过程中,数据集成可以说是最细致也是最难的一个重要步骤了。

(三)数据仓库是相对稳定的

这里所描述的数据仓库的相对稳定是针对数据仓库的应用而言。在对子数据进行整合吸收后,这些数据并不能改变更新,用户只能借用数据进行分析,而不能改变原始数据。所以说数据仓库的稳定性表明了数据读取格式为只读。

(四)数据仓库是随时间的变化而变化的

在前一段中有提出数据仓库的稳定性是对应用而言。但这并不意味着数据仓库中的数据是一成不变的,随着时间的变化,数据仓库会增加一些新的数据、删除一些陈旧数据以及整合一些与时间相关的数据。这也正说明数据仓库是随时间的变化而变化的,这也反映了数据仓库的历史变化,而企业通过数据的变化更能准确的进行分析和预测,从而降低企业风险,进一步提高企业效益。

二、数据仓库的思想

数据仓库中存在着很多优秀的思想,这些思想都非常值得数据库设计者和软件设计者用来参考。数据仓库的核心思想之一就是面向主题。正如前面所言,主题是在高层次上将数据进行分类,并与另一个分析环境相对应,此环境是使用者在通过数据仓库进行决策时所关注的对象,而这种对数据的关注倾向正好反映了使用者的需要,这种需求提供了可靠的依据,所以说主题是数据仓库需求的构成因子,一个好的数据仓库离不开多个好的主题。

三、数据仓库的应用

(一)数据仓库应用的现状

目前,政府、各行业、众多企业都开始建立本单位的数据仓库体系,包括政府决策支持系统、银行信息系统、电力系统以及全国各大连锁店等。可以说数据仓库的应用是比较广泛并且迫切需要的。在建立本单位的数据仓库体系时,是通过各路相对独立、不同的子数据加以数据抽取、转换而后输入到所建立的数据仓库当中。这些数据与单位自身的内部信息有效的相结合,从而为单位更好的分析经营环境提供了比较准确的数据依据,也为单位的正确分析预测进行了准确的技术保障,同时相应减少了单位的经营风险,提高了管理水平和决策效率。

(二)数据仓库应用存在的问题

事实上,国内数据仓库应用与预测带来的效益还是有一定差距的,显而易见,在我国数据仓库的应用还存在着一定的问题。

1.数据仓库的利用率并没有预期高

数据仓库设计者没有面向主题,没有根据需求建立数据仓库,导致数据仓库的利用率并不高。不少企业花费了很长人力资源、物力资源精心设计数据仓库却得不到相应预期的效益。根本原因是市场的需求分析有缺陷,没有根据市场需求设计而是仅从企业自身出发,从而导致数据仓库的使用人群很少,在运转数据仓库过程中用户并不多。当然这与企业的管理水平也有关系,我国企业的管理水平本身是有缺陷的,由于这个缺陷致使在收集来的子数据很多没有发挥作用,没有有效联系起来,最终导致数据仓库的利用率低。

2.信息体现形势不够丰富,过于单一

由于数据仓库应用以OLAP以及固定报表为主,OLAP,联机分析处理,虽然是从不同的角度进行观察,这些观察是从分析人员、管理人员或执行人员对原始数据进行的转换,但是这种方式并不能使信息统一化,完美化。而固定报表,仅仅是在原有处理过的数据仓库中的基础上进行一次重复,所以导致数据仓库中的信息表现方式不够丰富,太过单一。很明显,这样并不能给数据仓库带来应有的效益,不能发挥它最大的应用价值。

3.数据仓库的应对不够灵活

数据仓库的特征之一是随时间的变化而变化,数据仓库对一些新增的需求需要灵活的应对适应。而对新增的需求又要进行抽取、转换、清洗,这对数据仓库有一定的冲击,导致数据仓库进入疲惫状态。然后由于子数据的问题以及所存在的某些技术问题、管理水平、投入力度不大导致数据仓库系统不稳定。

(三)数据仓库的应用方法

根据数据仓库应用所存在的问题,可以将数据仓库的应用方法重点归于两大类,一种是根据需求,另一种是提高技术。

1.根据需求

根据需求来设计数据仓库,从而提高数据仓库的利用率。而这种需求与传统意义上的OLTP系统需求是不同的,传统的OLTP系统需求是指依据事务处理的逻辑上进行收集、整理、分析的。而数据仓库应用的需求是成功建立一个数据仓库必不可少的一部分,这要求应用的需求必须是经过整理并完善起来的。一个比较优秀的数据仓库应用系统应该是不断循环的过程,而这个过程的实现就需要需求的推动。

所以说确定需求起点是至关重要的,例如保险企业,在构建保险公司管理指标体系时就要以需求为起点,再确立主干、支干、叶片。例如可将承保、核保、报案理赔这些业务归纳为主干,而支干可以是管理人员、统计人员这些工作角色,而以签单数量这些数据指标作为叶片总结起来就可以构成保险公司管理指标体系。一个成功的管理指标体系加上技术部门的加工之后,更能有效的将各部门联系起来,更加清楚的指导各业务部门有效的操作,使技术以及业务人员更加清晰明了使用,从而更大更有效的发挥了整个数据仓库的优势。

2.提高技术

根据数据仓库的设计首先是必须要有一个数据体系的整体规划。而数据体系的规划要注重数据模型的建立。由于子数据发展大相径庭,相互独立,在各个方面都有很大的不同,这些外部数据与单位自身内部数据很难达到均衡统一,所以是很难实现理想化地数据模型。在数据模型建好之后要加强前端的应用系统的建立,以便更便捷的进行业务分析。在管理层方面,因为数据是变化的,外部环境的变化也是相当迅速的,数据仓库应该加强对数据动态变化的适应性。这就要求规划好数据体系,及时将静态和动态的数据进行管理,并逐步完善数据仓库的管理体系。

四、数据仓库展现工具

目前而言,国内市场上的数据仓库展现工具是琳琅满目的,但是其功能多数是一样的,所以在选择工具上,用户都还是要有自己的标准。首先是交互性,所谓交互性就是指用户在使用的时候不再是电子死板输入的方式,不必为寻找某个数据全篇翻查,而是通过报表的智能分析,进行简单的输入操作就能实现分析要求。在比较流行的报表工具中,Crystal Report和Style Report作为两家成熟的商业报表软件供应商在交互性技术上存在着比较明显的优势。另外一个好的报表工具还需要有易用性、扩展性、可靠性以及完整性等特征,国内比较流行的报表工具有润乾报表、BI@Report等。那么这些较为流行的报表工具是如何进行数据仓库的数据图表展现的呢?

数据和图表的展现是非常重要的,它展现的合理性直接影响着用户是否能简单明了的读懂数据和图表表示的含义价值,能否更好的应用数据,从而提高使用者的兴趣、发现数据的价值。相反,如果展现方式不明了简洁,则会挫伤用户的耐心以及下次使用报表的兴趣。报表主要展现的是数据的值、数据发展的趋势以及数据构成的比例等信息,数据发生的变化以及异常都只能通过报表来体现。而数据仓库在进行数据和图表的展现时主要是通过两种方法:一种是现在我们最通用、最常见的WEB报表,WEB端的报表可以直接通过常用的浏览器登录进行查看,最为广泛运用的就是Business Objects等这些分析工具;而另一种就是在客户端的数据基础上展现,最普及的就是Excel,利用Excel的数据透视表功能可以很好地展现多维数据库MDDB中的数据。

图1.上海市经济运行决策分析数据仓库,多维展现图

五、结束语

本文通过对数据仓库原理和存在的特点、核心思想以及在当代数据仓库应用过程中存在的问题,针对问题提出应用方法解决措施,分析了比较流行的报表工具和用户在选择报表工具中所考虑的标准,以及对报表数据图表的展现方式进行了粗浅的论述,提出了一些自己认为有效可行的方法。在这个科技快速发展的时代,随着我国的数据仓库应用范围的不断深入,管理水平的提高,相信通过长期经验积累,数据仓库设计在更富创造性更具特色的同时,将会给政府提供更高效的决策分析依据,给企业带来更多的经济效益、更高的质量管理水平。

参考文献:

[1]陈京民.数据仓库原理设计与应用[M].北京:中国水利水电出版社,2004

数据仓库范文第2篇

IBM InfoSphere Warehouse是IBM的综合数据仓库平台, InfoSphere Warehouse 9.7的创新功能包括: 能够缩短数据仓库的实施时间,提升安全性、可用性以及可扩展性,并让实施业务分析(Business Analytics)变得更简单。此外,这些创新功能还能帮助企业建立绿色的以及基于云计算的符合成本效益和能源效益的平台。

InfoSphere Warehouse 9.7的新特性包括: 节约成本; 优化行业XML标准数据的使用; 深入的分析能力,其中包括数据挖掘导航、数据准备以及通过解决方案模版实现“信息即服务”、增强安全特性的多维分析能够直接分析DB2数据库中的数据; 更高的数据可用性,其中包括将数据迁移至新的表格时不丧失可用性、提升了在线的可扩展性、更强的BI特性、通过图形用户界面更简便地进行工作负荷管理。

此外,2009年7月28日,IBM还了智慧的分析系统,其中包括商业智能报表、分析、仪表盘、记分卡、数据挖掘、文本分析、数据仓库管理、存储和服务平台等。智慧的分析系统可以在12天以内交付并提供基于行业的分析能力,帮助用户以比平时快3倍的速度进行决策,但同时只需要往常50%的存储资源,从而节约了房屋面积和能源; 同时,还能揭示及洞察隐藏在海量数据中的关系―不仅仅是结构化的信息,还包括各种非结构化信息,如影片、邮件、网站、播客、博客、Wiki和归档的数据等。

Microsoft SQL Server Fast Track

作为一套新型数据仓库参考体系结构,SQL Server Fast Track能够帮助企业消除在创建数据仓库时经常遇到的各种障碍。利用SQL Server Fast Track数据仓库,微软为客户提供了参考设置选项和技术指南,用于创建适用于用户独特需求与预算要求的企业级数据仓库解决方案。

微软独特的提交模式为用户提供了更大的灵活性和选择空间,允许用户选择适用于现有基础设施环境的行业标准硬件。新配置利用对称多处理架构,在标准平台上创建企业数据仓库,还提供了更大的容量以及更低的价格,且产品性能相当于同类的“开箱即用”系统。

SQL Server Fast Track数据仓库旨在提高产品的性能与线性可升级性,同时将设置需求降至最低,从而帮助IT部门节约时间与资金。通过均衡配置,新型参考体系结构对所有硬件部件进行优化,实现每中央处理单元核心每秒200 MB的处理性能。

对于微软的用户而言,SQL Server Fast Track数据仓库是微软继企业商业智能与数据仓库之后,在技术发展历史上的另一块重要里程碑。更新至SQL Server 2008新型参考体系结构后,SQL Server Fast Track数据仓库能够帮助客户实现至“Madison”项目的无缝跨越。Madison项目拥有可升级性和商业智能功能,能够将SQL Server 2008与收购自DATAllegro公司的大规模平行处理技术相集成,帮助企业将数据仓库设置为数百TB级。

Sybase IQ

Sybase IQ是基于列的分析服务器,其能够基于企业的全部信息,按照任意条件,面向所有用户,提供更快速和更准确的分析。凭借基于列的核心架构和创新功能,Sybase IQ从多个层面提供了灵活性和可扩展性,能够为更大的数据集、更为复杂的分析任务以及快速增长的BI用户群,提供查询性能。并且,它所需要的环境是企业能够负担的、环保的,在实现阶段和整个信息生命周期中都是可管理的。

Sybase IQ具有以下几大特性:

灵活性: 计算能力和存储容量独立扩展能力; 运行过程中修改模式,不会阻塞查询,无需停机; 无需物化视图; 对于预聚合,支持预计算的连接索引; 管理结构化和非结构化数据; 通过认证,能与可视化和数据集成工具协同工作。

速度: 多种类型的位图索引; 基于成本的查询优化器; 基于列的体系结构; 多列索引的使用; 增加了内存压缩查询处理; 增强的断词(Tokenization)技术,提供更快速的查询。

可用性: 增强的大表加载; 直接从客户端加载; 多节点加载; 专利的数据压缩技术; 高可用性/灾难恢复。

安全性: 口令认证/数据不落地的加密传输; 对静态数据(data-at-rest)进行数据库和列加密; 支持Unix上的FIPS; 支持Kerberos; 用户可设置密码支持IPv6。

可管理性: 索引向导工具指导选择最高性能的索引; 用于诊断的、基于XML和GUI的查询计划生成器; 用于数据库管理的、基于GUI的多功能管理控制台; 增强的资源和工具管理。

Teradata Active Enterprise Data Warehouse

Teradata动态企业级数据仓库平台(Active Enterprise Data Warehouse)采用Teradata海量并行处理技术,是一种经过优化、可同步执行多种流程的系统,其性能及可扩展性令企业能够对详细的运营数据进行更深入和透彻的分析。动态数据仓库将传统数据仓库功能扩展到了动态企业智能这一更为成熟、覆盖面更广的数据环境。动态企业智能侧重数据仓库在业务运营层面的应用,通过数据库平台在实时操作环境的支持下,实现快速战略决策。

Teradata动态数据仓库有两大特点。一是动态访问,一线用户可以动态、或者说实时地访问所需信息。传统数据仓库用户只针对高端管理层,一个银行一般只有几十个到几百个用户可以访问,成千上万的客户经理和客户代表如果要实现同时访问,对传统数据仓库来讲是一个很大的压力,而动态数据仓库采取相同的技术架构和不同的技术手段实现了大规模的动态访问。

二是动态数据加载,传统数据仓库的数据加载与动态数据仓库的数据加载所需的技术设施几乎相同。不同的是传统的数据加载不是实时和连续的,只能是以批量的形式加载,而动态数据仓库的数据加载则能连续加载并实现一分钟或者几秒钟间隔的近实时加载。

数据仓库范文第3篇

数据仓库的出现创造了一个分析型的数据环境,为企业基于数据进行分析、决策提供了支持。

但是,数据仓库的实施并不意味着企业从中获取了价值,让数据仓库真正地服务于业务,产生业务价值,这才是数据仓库的根本目的。而要做到这点,就必须让人用起来,而不是一个摆设;同时要让所有的人用起来,而不是单纯的决策者,这样才能产生最大的价值。

在使用过程中改进

“数据仓库项目绝不只是一个建设的问题,必须注意相应配套措施的跟进,加强推广和培训工作。如果没有人使用,大家就会认为这是一个失败的项目。”Teradata中国区数据仓库事业部副总经理王闯舟这样说道。他认为,从当前国内数据仓库的实施情况来看,应用的全面和深入地推广是需要尽快解决的问题。

现实中总有一些数据仓库项目,在建设完成后成为了摆设,被束之高阁,或者乏人问津。而之所以出现这种问题,有两个方面的原因。

首先,相应的应用程序没有跟进,单纯地建设数据仓库是没有任何意义的,必须配合实用的分析工具和应用程序才能发挥数据仓库的价值。

对于企业来说,数据仓库建设是一个立体的工程,必须把它放到整个企业信息系统环境中,才能成功实施。

其次,不注意后续的推广和培训。在数据仓库建设过程中,会有专业的人员为企业提供咨询,但是在项目实施完成之后,企业往往忽视了持续的推广和培训工作。

简单地认为只要把工具交给相应人员手里就大功告成了,而他们往往忘记了工具的目的是让人使用的,同时也低估了人们对于新生事物的抵制,单纯地认为只要性能更好,功能更加大,人们自然会蜂拥而至。

从根本上来说,整个商业智能是一个锦上添花的项目,企业从中获取更大的发展,而不是赖以为生。因此不像其他的业务运营系统,离开了,企业就无法正常开展工作。对于员工来说,没有使用的压力,就很难促使他们改变自己,接受新事物。另外,数据仓库的使用需要掌握一定的技能,而对普通的员工来说,这也是一个门槛。

因此对于数据仓库项目的实施,一定要注意推广、培训,让员工充分认识到它的价值,促使他们愿意用;同时进行相关的培训,使其掌握相应的技能,保证他们能够正常使用。另外还需要建立一定的绩效考核制度,施加一定的压力,督促他们真正地使用起来。

只有在数据仓库真正使用起来以后,企业才能不断地明确业务需求,发现问题,同时积累经验。在此基础上,企业再对数据仓库进行不断地完善、扩充,从而形成一个良性的循环,而不是一上来就建立一个大而全的,苛求完美的数据仓库。这样分阶段地、循环地实施可以帮助企业规避风险、节省不必要的开支,同时快速地看到回报,有利于建立信心,推动数据仓库项目持续地进行。

“数据仓库的建设要想大做小,在整个企业级的架构指导下,逐步地进行实施。”王闯舟进一步说道。“数据仓库的建设有两种思路,一种是数据驱动,致力于建立一个企业级的数据仓库;另一种是应用驱动,致力于解决现实的问题。在现实的项目当中,我们应该把这两者结合起来。”

让所有的人都能使用

操作型商业智能正在成为商业智能发展的一个方向,它要求商业智能不仅要为企业“金字塔”组织架构中的高层提供决策支持,同时也要帮助一线的业务人员更好地开展工作。

但是普通业务人员的关注点和要求与决策层差别很大。对于管理人员来说,他们更关注历史数据的分析,期望从中找出规律,发现问题。而对于一线的业务人员,他们则关注操作型的数据,要求实时地看到最新的业务进展情况,指导自己当前的工作。

但是传统的数据仓库都是静态的,它存储的数据都是历史性的和加总的。它丢失了具体的事务性信息,同时最新的进展情况也无法得到及时反映。为了解决这种问题,操作型数据存储(ODS)的概念被提出。

“数据仓库之父”比尔・ 恩门认为ODS是支持企业对最新的、运营性的、整合的、总体的信息的需求而建立的具有主题导向的、整合的、变动的、显示当前值的、只有细节的数据的集合。

ODS代表着企业最新一分钟运营情况,而从ODS中做出的决定的焦点是即刻的。

因此在数据仓库的建设中,我们会看到在企业级数据仓库之外还存在一个ODS,通过在物理上把传统的数据仓库和ODS区别开来,整个数据仓库项目满足了企业不同的业务需要。

但是在这样的架构下,企业数据仓库建设的成本上将大幅提高,不仅要维护企业数据仓库,还要维护ODS,数据冗余度增加的同时,成本也急剧增加。

另外,一份数据同时存储于两个地方,使数据的一致性和准确性也面临着挑战。

而动态数据仓库的出现解决了这些问题,它利用一套数据仓库系统来同时满足管理层决策的需求和业务人员实时操作的需求。

动态数据仓库的构建技术实际上和传统的数据仓库一样,但是在扩展性和负载性上有了更高的要求。

动态数据仓库要实时地或者准实时地从业务系统中提取数据,同时要求对用户的请求快速地响应,另外还要应对大量人员的同时使用。这对动态数据仓库的稳定性提出了很大的挑战。

那到底什么样的数据仓库才能称得上动态的数据仓库呢?在动态数据仓库方面走在前面的Teradata公司提出了六个方面的衡量指标:

动态地访问:对一线操作性的决策和服务提供支持,响应时间要少于10秒。

动态地加载:准实时地导入数据,在一分钟或几秒钟之内小批量地快速加载。

动态事件监控:快速地反映业务中发生的事件,例如在信用卡业务中,一次性地大额透支事件,要及时地被提取出来,从而提醒银行保持警惕,避免信用卡被盗取对银行和用户造成损失。

要做到这一步,就必须在业务规则中进行定义,并能够从复杂的环境中进行一定的智能判断。

动态地企业整合:能够把数据动态地整合进企业级的架构中,从而支持所有人员的快速决策。

动态地负荷管理:动态地系统管理,从而实时地进行性能优化和资源利用。

动态地可获得性:在提供用户实时地使用时要保证高度的可靠性和稳定性。

在动态数据仓库的建设中,王闯周提出了节点扩充的概念,每个节点都能应对一定程度的数据加载和用户访问,随着数据量的不断增大和用户群的增长,不断扩充节点,从而轻松地扩展。

数据仓库的目的有两个,一个是对内帮助企业进行内部管控,降低成本,提高效率。另一个是对外,更好地服务客户,提升客户价值。传统的数据仓库只关注前者,而动态数据库的出现不仅使企业内部管控上更加强大,同时大幅地提升了用户满意度。

数据仓库范文第4篇

数据仓库(DW)早已是业界非常成熟的技术,正因为如此,突破也变得尤其困难。 不过Gartner分析师Donald Feinberg对Greenplum的褒奖多少说明了它在技术上的成绩:“可能会成为数据仓库和数据库管理系统市场的突破力量。”

神奇来自哪里?

谈到Greenplum的神奇技术,该公司大中华区总裁周金辉问了记者一个问题:“你相信我们能够用普通的PC和Greenplum软件就能搭建出优于昂贵软件+昂贵的存储设备的高吞吐量的大型存储嘛?”记者摇了摇头。

周金辉解释道,“例如一家中国知名企业有巨大的在线交易平台,因此每天加载的数据量高达2TB,加了很多昂贵的存储设备以后,还是不能满足该公司日益增长的数据要求,而且加载时间越来越长,每天都需要花15至16个小时来加载当天的数据量。不过现在他们轻松多了,只需要不到四十分钟,用普通的Pc机,数据加载就完全能够搞定。Greenplum可以比业内领先的数据库供应商快20倍”。

“不会吧?原因何在?”记者很疑惑。

周金辉笑了笑,说道:“我们知道数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了它对外部数据表现形式。要对数据仓库进行真正‘突破’,要解决两个问题。”

第一个难题:大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系型数据库系统能够担当此任。

Greenplum是关系数据库中的佼佼者,以数据量大著称的eBay采用的就是Greenplum的技术,数据量达到6500TB。

第二个难题:并行处理。在数据仓库系统中,用户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。

大多数数据库的性能随着所管理的数据量的增加,性能会呈几何曲线下降,总是存在一个优化平衡点。但是Greenplum的独特并行技术架构,成功地解决这个难题,无论扩充的数据有多少。补充一点,Greenlpum所管理的数据是无限扩充的。Greenplum的性能都是线性的,客户能够在同样的使用体验下使用Greenplum和合作伙伴的技术。

Greenplum真正发挥了并行无处不在的优势。究其原因,在于它独特的MPP并行处理架构和传统的SMP模式不同。这种模式只要通过简单的增加节点,就可以线性提高系统的存储容量和处理能力。完成后用户可以在一个主机上同时启动多个PgsQL数据库,这样硬件上的多核CPU就可以充分发挥优势。

简单来说,它在数据装载时,不是我们一般想象的存在一个中心的数据分发节点,而是所有节点同时读取数据,然后根据hash算法,将属于自己的数据留下,将其他节点的数据通过网络直接传送给它,所以数据装载的速度非常快。

为客户节约成本

随着科技的进步,用户对软件的标准也在提高。同类软件他们要求有更高的性价比,更好的易用性。

周金辉表示,与很多竞争友商不同,Greenplum数据库软件系统节点基于业界各种开放式的硬件平台,对SUN/HP/DELL等的PC Server都能够兼容,而Teradata在部署类似软件的时候,会建议客户更换硬件平台,达到更好的运行效果。“Greenplum在普通X86 Server机器上就可以达到类似的效果。”周金辉对此很自豪,“相比其他封闭式数据仓库专用系统,我们每TB的投资比他们相对低。”

Greenplum为客户节约成本是在“节流”上下功夫,在企业“开源”上,我们也有对策。

在大数据量的基础上,Greenplum可以对实时数据进行加载,实现DW的实时更新,进而实现动态数据仓库。基于动态数据仓库,业务用户能对当前业务数据进行BI实时分析,从而让企业敏锐感知市场变化,加快决策支持反应速度。

数据仓库范文第5篇

关键词:数据仓库;传统数据库

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)20-30206-02

From Traditional Database to Data Warehouse

GAO Kang

(School of Health Technology of Jianghan University, Wuhan 430056, China)

Abstract: As a new technology derived from Database technology applied to a specific areas, Data warehouse plays an important role in the DSS. This paper describes the application background of the Data warehouse, the basic concepts and characteristics. And primary put Data warehouse compared with traditional Database, also pointed out that creating a Data warehouse can take full advantage of traditional Database.

Key words: Data warehouse; traditional Database

1 数据仓库(Data Warehouse)概述

1.1 数据仓库的应用背景

当今社会,正确及时的决策是任何机构生存和发展的重要环节。只有充分利用、发掘其现有数据才能实现更大的效益。日常的业务应用生成了大量的数据,将这些数据用于决策支持会带来显著的附加值效果。如果再加上有用的外来数据,则产生的效益进一步增强。许多机构在计算机系统中储存有大量的数据,例如一个企业购买、销售、生产过程中产生的数据及与客户相关数据等。通常这些数据都储存在许多不同的地方。数据仓库将分散在机构内各种跨平台的数据经过重新组合和加工,构成面向决策的数据集合,进而支持数据发掘、多为分析等技术和传统查询及报表功能的。企业和组织对这类应用的需求推动了数据仓库技术的发展。

1.2 数据仓库的概念及特点

不同的学者对数据仓库有不同的定义,这里我们以数据仓库之父Bill Inmon在1991年出版的《Building the Data Warehouse》一书中所提出的定义为准。数据仓库(简称DW)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

其特点即概念中所描述的四点:面向主题、集成、相对稳定和反映历史变化。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业或组织的各项数据,以及数据之间的联系;集成是指,数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是一致的全局信息;相对稳定也可以认为是一般情况下不可更新的。数据仓库的数据主要供企业或组织决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新;反映历史变化是指,数据仓库中的数据通常包含历史信息,系统记录了企业或组织从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

2 数据仓库与传统数据库的比较

2.1 差异概述

数据仓库既然是支持决策的,那么现今数据库技术已经已经日趋成熟,为什么不直接以传统数据库为基础来建立决策支持系统(DSS)呢?回答这个问题之前先了解两个概念,操作型处理和分析型处理。操作型处理(也叫事务处理),是指对数据库联机的日常操作,通常是对一个或一组记录的查询和修改。分析型处理则用于管理人员的决策分析。两者之间存在着巨大差异。

传统数据库,主要用于事务处理。最初的DSS也的确是直接建立在这种事务处理环境上的。事务处理是事务驱动的、面向应用的。它的根本任务就是及时地、安全地将当前事务所产生的记录保存下来。分析处理应用则完全不同。当以事务处理为主的联机事务处理应用(OLTP)与分析处理为主的DSS应用共存于同一个数据库系统中时,这两类处理发生了明显的冲突。直接使用事务处理环境来支持DSS是不合适的。表1给出了传统事务处理数据库与数据仓库之间的异同。

2.2 数据模型方面的差异

数据模型是数据仓库设计的精髓。关系数据库的关系数据模型已经被大家所熟知,在此不再详细说明。这种关系模型难以表达数据仓库的数据结构和语义;数据仓库需要简明的、面向主题以及便于联机数据分析的数据模式。

数据仓库一般是基于多维数据模型构建。该模型将数据看成数据立方,数据立方既描述一个语义结构由描述底层结构的实例化,由维和事实构成。维是人们观察主题的特定角度,每一个维分别用一个表来描述,称为维表,它是对维的详细描述。事实表示所关注的主题,也由表来描述,称为事实表,主要特点是包含数值数据,这些数值数据可以进行汇总以提供有关操作历史的信息。每个事实表包括一个由多个字段组成的索引,该索引由相关维表的主键组成,维表的主键也可称为维标识符。事实表一般不包含描述性的信息,维表包含描述事实表中事实记录的信息。

数据仓库的多维数据模型分为3种:星型模式、雪花模式和事实星座模式。其中星型模式最为常见,主要构成为:一个含大量而无冗余数据的事实表;多个相对含有较少数据的维表。每个维度自主组成一个维表,每个维表有一个维标识符与中心事实表发生联系,用图形描述呈星型。

如图1所示是一个销售数据仓库的星型模式。其中,有一个销售事实表,4个维表。事实表的索引是相应维表的主键,是事实表的外键。通过这种引用关系构成了多维联系。在每张维表中,除包含每个维的主键外,还需要描述该维的一些其他属性字段。

图1

雪花模式是数据仓库的又一种数据模式,是星型的延伸形式。因为维表是二维关系的一个特例,在设计维表时,可用关系数据库的规范化理论进行优化,以减少数据冗余,消除插入、删除异常,同时达到易维护和节约存储空间的目的。这样就有可能把某个维表的数据分解到多个不同的表中,而使模式表现为类似于雪花的形状。如图2即是在图1基础上演变而来的雪花模型。

由于雪花模式的某个维的数据分布在其他表中,查询时需要多表连接,给系统带来时间上的开销而降低性能。在这两种结构之间的选择取决于数据的规模和性质,以及在线分析处理的工作负荷。通常,星型模式需要更多的存储容量,但是处理起来更快;雪花模式更慢,但是占用较少的存储空间。

事实星座模式是指存在多个事实表,而这些事实表共享某些维表,也称星系模式,因并不常用在此不进行详述。

3 生成数据仓库过程可充分利用传统数据库

以上已经给出了数据仓库的概念和与传统数据库的主要区别,但并不是说数据仓库和传统数据库是完全割裂的。数据仓库、OLAP和数据挖掘(DM)一体才能够实现一个可行的DSS,数据仓库用于数据的存储和组织,OLAP集中于数据的分析,DM则致力于知识的自动发现。显然数据仓库在本质上和传统数据库是一样的都是用来存储数据的。

数据仓库的作用是存储从工作数据中节选的数据,并进行合并、聚集、变换等操作,通过一些为了分析和决策而设计的工具(如OLAP),使其对用户有用。这些数据可以是从数据库和文件中节选的,还可以是图像、录音、照片和其他数据。传统数据库中数据多以细节为主,可以作为数据仓库中粒度较小那一部分数据的来源。从数据仓库数据模型来看,也是以传统数据库表为基础生成的,传统数据库表通过规范化来消除表修改异常,在数据仓库中同样采用此方法来规范化维表,比如星型模型向雪花模型的转变。只是在表结构方面有所不同。我们在生成数据仓库时,应本着面向主题的原则,充分利用传统数据库数据,对有用数据进行抽取,将分散数据进行综合。完全可以做到对传统数据库数据的充分利用。

4 结束语

长期以来随着数据库技术的发展,积累了大量的数据,并且规模还在迅速的增加和扩大,现阶段急需采用新的数据库技术从日益庞大的数据库中提取出有用信息。数据仓库的出现和发展,就是计算机和数据库技术应用到一定阶段的必然产物。现在数据仓库技术研究仍处于起步阶段,其复杂性还需要大家进行深入研究。

参考文献:

[1] 萨师煊,王珊. 数据库系统概论(第3版)[M]. 高等教育出版社,2000.

[2] 王林. 数据库系统原理与应用技术基础[M]. 北京希望电子出版社,2003.

[3] 王珊,等. 二十一世纪数据库系统的未来研究方向[M]. 计算机科学,1996.

数据仓库范文第6篇

关键词:数据仓库;数据挖掘;决策树

中图分类号:TP391 文献标识码:A 文章编号:16727800(2013)002009904

0 引言

数据仓库与数据挖掘是近年来刚刚兴起并逐步发展起来的一门新兴交叉学科,它把对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,并提供决策支持。此门学科涉及到许多领域的知识,包括数据库技术、人工智能技术、数理统计、可视化技术、并行计算、机器学习等,汇集了多门学科的知识并在综合运用这些学科知识的基础上产生出新的知识和方法。此门学科的应用主要在于构建企业的决策支持系统,此系统正是目前帮助企业提高自身竞争力的重要手段。

在数据仓库与数据挖掘学科中涉及了许多概念、设计方法及诸多挖掘算法,本文将就其中的一些内容结合SQL Server Analysis Service应用实例加以阐述与说明,以加深对理论的理解,并逐步掌握此门学科所提供的更多技术。

总体来讲,构建一个企业的决策支持系统主要有两个阶段,第一个阶段是创建企业的数据仓库,第二个阶段是在数据仓库的基础上进行数据挖掘。这两个阶段的工作相辅相成,数据仓库是基础,数据挖掘是在数据仓库之上的高层应用,两者需要整体规划、分步实施。下面分别就这两部分内容结合实例加以阐述。

1 数据仓库的规划与设计

数据仓库是一个面向主题的、集成的,时变的、非易失的数据集合,支持部门管理的决策过程,数据中的每一个数据单元在实践上都是和某个时刻相关的。数据仓库也被看作是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储整个组织的历史数据,这些数据会影响到这个组织和企业的多个方面。数据仓库的特点是:数据常常来自于多个数据源;其存放模式一致;驻留在单个站点;数据已经清理、变换、集成与装载并定期刷新;数据量巨大。

数据仓库构建方法同一般数据库构建方法最大的不同在于数据仓库的需求分析是从用户的决策问题入手,其目的是直接针对问题的主题,而一般数据库系统是以事务处理为出发点。下面结合具体实例说明数据仓库的设计步骤。

1.1 确定用户需求,为数据仓库中存储的数据建立模型

通过数据模型得到企业完整而清晰的描述信息。数据模型是面向主题建立的,同时又为多个面向应用的数据源的集成提供了统一的标准。

例如:FoodMart是一家大型的连锁店,在美国、墨西哥和加拿大有销售业务。市场部想要按产品和顾客分析1998年进行的所有销售业务数据。该公司现在急需进行销售方面的数据分析,以找到一些潜在规律来促进销售业务的进一步拓展从而扩大销售渠道、加大销售量、提高销售利润、增强公司竞争力。该连锁店销售的产品总体上被分为若干个大类,细节上分为若干个小类;客户广泛分布于不同地区、不同国家。该连锁店在销售信息管理系统中长期保存并不断更新着产品、产品分类、商店、销售、促销、客户等记录表,依次为:产品表(PRODUCT)、产品分类表(PRODUCT_CLASS)、商店表(STOR)、1998年销售记录表(Sales_fact_1998)、促销表(PROMOTION)、客户表(CUSTOMER)等。

FoodMart连锁店保存并不断更新的数据库是事务处理型数据库,其结构是面向应用而设计的。要进行数据挖掘就必须建立面向主题的数据仓库,为了进行1998年销售方面的数据挖掘,要设计的数据仓库必须以1998年销售数据为主题,辅之以日期、产品、产品分类、商店、促销、客户等其它数据信息。具体来讲,即创建以1998年销售为主题的数据仓库,采用星型/雪花模式构建事实表。

1.2 分析数据源,完成数据仓库的设计工作

基于用户的需求,着重于1998年销售主题,开发数据仓库中数据的物理存储结构,即设计多维数据结构的事实表和维表。1998年销售事实表包含5个维表和3个度量。这5个维表分别是日期、客户、产品、促销和商店维表,3个度量分别为销售金额、仓储成本、销售单位。考虑到将来要根据顾客的年收入情况进行顾客会员卡种类方面的数据分析,另外增加了年收入维度(yearly income,取自于customer表)。为便于分析挖掘出有关时间因素的信息,特增加了时间表time。

1.3 生成物理的数据仓库,并从各种源系统中获取数据装入数据仓库中 在SQL Server Analysis Service manager中建立物理的数据仓库可以通过ODBC数据源方式指定原有数据库,再通过Microsoft OLE DB Provider for ODBC进行连接的方式完成原有数据库到数据仓库的映射。运用SQL Server Analysis Service manager提供的功能建立数据仓库的多维数据集,指定此数据仓库的度量值与维度,至此数据仓库建立完毕。其中纬度与度量值如图2所示。

2 数据挖掘

数据挖掘(Data Mining)又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。简言之,数据挖掘就是从海量数据中提取隐含在其中的有用信息和知识的过程。数据挖掘可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。数据挖掘的方法是建立在联机分析处理 (On Line Analytical Processing,OLAP)的环境基础之上的。OLAP技术使数据仓库能够快速响应重复而复杂的分析查询,从而使数据仓库能有效地用于联机分析。OLAP 的多维数据模型和数据聚合技术可以组织并汇总大量的数据,以便能够利用联机分析和图形工具迅速对数据进行评估。当分析人员搜寻答案或试探可能性时,在得到对历史数据查询的回答后,经常需要进行进一步查询。OLAP系统可以快速灵活地为分析人员提供实时支持。

数据挖掘工作是在完备地建立了数据库、数据仓库等数据集的基础上进行的,典型的数据挖掘系统结构如图3所示。

整个数据挖掘过程主要可分几个阶段,依次为:问题定义、数据预处理、数据挖掘以及结果的解释和评估。

2.1 问题定义

问题定义就是要清晰地定义出业务问题,确定数据挖掘的目的。对于FoodMart连锁店来说,它的问题定义就是:FoodMart连锁店的市场部想增加客户满意度和客户保有率,于是实行了创造性的方法以达到这些目标。

其方法之一是对会员卡方案重新进行定义,以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。

为了重新定义会员卡方案,市场部想分析当前销售事务并找出客户人口统计信息(婚姻状况、年收入、在家子女数等等)和所申请卡之间的模式,然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。

2.2 数据预处理

最初为数据挖掘所准备的所有原始数据集通常都很大,它们当中存在许多脏数据。造成脏数据的原因主要源自于收集与传送过程的错误、滥用缩写词以及不同的惯用语、重复记录、数据输入错误、拼写变化、不同的计量单位、过时的编码、集成时的空值与丢失值以及不同的数据源等。脏数据主要有以下一些表现形式:

(1)数据不完整。表现为:感兴趣的属性缺值;缺乏感兴趣的属性;仅包含聚集数据等。例如:CUSTOMER表中的LNAME=“”

(2)数据噪声。即包含错误的属性值或存在偏离期望的孤立点值。一个属性的值与事实完全不吻合的情况,例如:CUSTOMER表中的在家子女数num_children_at_home=200

(3)数据不一致。数据不一致表现为多种情况,比如:同样的属性在不同的结构里使用不同的名字,例如:name、xm;不同数据使用的计量单位不同,例如:100(美元)、100(美分);数据不允许为空的地方数据为空等。

如果在脏数据上进行数据挖掘将很可能导致错误的判断甚至完全相反的分析结果,也就是说,没有高质量的数据就没有高质量的挖掘结果。由于决策质量依赖于数据质量,因此需要在数据挖掘之前进行数据预处理,以保证数据仓库内包含的是高质量的、一致的数据。所谓数据预处理其实就是对数据仓库中的数据进行提取、清理、转换,从而保证数据的高质量,具体来讲包括以下几种操作:

(1)数据清理(data cleaning)。就是去掉数据中的噪声,纠正不一致;填写空缺值,平滑噪声数据,识别、删除孤立点。例如:将CUSTOMER表中的在家子女数num_children_at_home=200的记录值删除掉或填入平均值1。

(2)数据集成(data integration)。将多个数据源中的数据合并存放在一个统一的数据存储(如数据仓库、数据库等)中,数据源可以是多个数据库、数据立方体或一般的数据文件。

(3)数据变换(data transformation)。即数据的标准化与聚集,将数据变换成适于挖掘的形式。例如:属性数据可以规范化,使得它们可以落入某个小区间。

(4)数据归约(data reduction)。数据归约技术可以用来得到数据集的归约表示,它接近于保持原数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘将更有效,并产生相同或几乎相同的分析结果。数据归约主要通过数据聚集(如建立数据立方体)、维归约(如删除不相关特性)、数据压缩(如最短编码)、数字归约(用较短的表示替换数据)、概化(去掉不用的属性)等方法完成。例如,对于FoodMart连锁店的数据挖掘来讲,CUSTOMER表中的address1、address2、address3、 address4这4个属性与挖掘目标无关,所以可以将它们删除掉以节省空间和时间。

2.3 选择挖掘模型,进行数据挖掘

根据数据挖掘的目标和数据的特征,选择合适的挖掘模型,在净化和转换过的数据集上进行数据挖掘。

FoodMart连锁店的工作设想是:对会员卡方案重新进行定义,以便更好地为客户提供服务并且使所提供的服务能够更加密切地满足客户的期望。市场部想分析当前销售事务并找出客户人口统计信息(婚姻状况、年收入、在家子女数等)和所申请卡之间的模式,然后根据这些信息和申请会员卡的客户的特征重新定义会员卡。

对于这个工作预期,决定采用决策树的数据挖掘方法进行客户群的分析。所谓决策树,就是在对数据进行决策分类时利用树的结构将数据记录进行分类,其中树的一个叶结点就代表符合某个条件的属性集,根据属性的不同取值建立决策树的各个分支,随后递归地构造每个子节点的子树。由于决策树结构简单便于人们认识与理解,以及决策树不需要额外的数据训练,因此,决策树是数据挖掘中常用的一种分类方法。

本实例采用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。按照以下步骤完成“决策树”挖掘模型:

(1)将要挖掘的维度(事例维度)设置为客户;

(2)将 Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息;

(3)选择人口统计特征列表(婚姻状况、年收入、在家子女数和教育程度),算法将据此确定模式;

(4)处理训练模型,浏览决策树视图并从中读取模式。

经过处理后,挖掘模型浏览器展现出一棵深度为3、宽度为8的决策树,此浏览器将根据用户对树中不同分支节点的选择显示出相应的统计信息。

例如,选择根节点“全部”顾客的方框后显示信息如图4所示。

在图中可以看到数据挖掘的结果:将客户按照年收入的不同分为8个区段(类),涉及的客户总数为7 632人,通过直方图可以直观地看到办理金、银、铜、普通卡的比例。

选择年收入在$30K-$50K的范围框后,挖掘模型浏览器的显示信息如图5所示。

年收入在此范围内的客户共计1 362人,其中办理金、银、铜、普通卡的数量和比例通过合计及直方图可以一目了然。

其它选项依此类推。

对年收入在$150K以上的范围节点进行进一步分级(显示其子节点),选择已婚节点后显示信息如图6所示。

其它选项依此类推。

2.4 解释模型结果分析

针对FoodMart商店的举措,对挖掘模型浏览器的显示结果进行研读后得出这样的结论:年收入越高的顾客办理金卡、银卡的比例越高,收入越低的顾客办理普通卡和铜卡的比例越高。在高收入的顾客中,已婚者办理金卡的比例最高,单身者办理银卡的比例最高。在较低收入的顾客中,在家子女的人数少于两人的办理铜卡的比例较高,多于两人的办理金卡的比例较高。具体数据值及比例值可以从挖掘模型浏览器中得到。市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型。

3 结语

企业要建立自己的决策支持系统就必然要应用数据仓库、数据挖掘技术,企业应根据自身要求合理建立特定主题的数据仓库,在此基础上还要结合实际问题选择相应的挖掘模型,从而得到最有价值的挖掘分析结果,以利于企业的经营发展。

参考文献:

\[1\] \[美\] MEHMED KANTARDZIC.数据挖掘――概念、模型、方法和算法\[M\].北京:清华大学出版社,2003.

数据仓库范文第7篇

信息技术的不断推广应用,将企业带入一个信息爆炸的时代。每时每刻都有潮水般的信息出现在管理者的面前,等待管理者去处理、去使用。这些管理信息的处理类型主要分事务型(操作型)处理和信息型(分析型)处理两大类。事务型处理也就是通常所说的业务操作处理。这种操作处理主要是对管理信息进行日常的操作,对信息进行查询和修改等,目的是满足组织特定的日常管理需要。在这类处理中,管理者关心的是信息能否得到快速的处理,信息的安全性能否得到保证,信息的完整性是否遭到破坏。信息型处理则是指对信息做进一步的分析,为管理人员的决策提供支持。

1.1 数据仓库的定义

业界公认的数据仓库概念创始人W.H.Inmon在《数据仓库》(Building the Data Warehouse)一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定。

数据仓库是将原始的操作数据进行各种处理并转换成综合信息,提供功能强大的分析工具对这些信息进行多方位的分析以帮助企业领导做出更符合业务发展规律的决策。因此,在很多场合,决策支持系统也成了数据仓库的代名词。建立数据仓库的目的是把企业的内部数据和外部数据进行有效的集成,为企业的各层决策和分析人员使用。

1.2 数据仓库的特点

从W.H.Inmon关于数据仓库的定义中可以分析出数据仓库具有这样一些重要的以下特性。

1.2.1 面向主题性

面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。

1.2.2 集成性

所谓集成性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。

1.2.3 时变性

所谓时变性是指数据仓库中的信息并不只是关于企业当时或某一时点的信息,而是系统地记录了企业从过去某一时点到目前的数据,主要用于进行时间趋势分析。

1.2.4 非易失性

数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。

1.3 数据仓库的技术体系结构

一个数据仓库系统的技术体系结构总体来说包括后台数据预处理,数据仓库,数据管理和数据仓库的前台查询服务三大部分。

数据仓库中的数据来自企业内部不同的业务系统甚至企业外部的商业数据库,这些数据库对于数据仓库来说被称为数据源。数据源中的数据在数据的组织方式、数据格式等许多方面与数据仓库对数据的要求有很大的差别,因此这些数据不可能直接载入数据仓库的数据库中,为此必须进行数据的预处理操作。数据的预处理包括数据源的定义、从数据源提取数据到预处理数据区(数据准备区)、在数据准备区中对数据进行净化处理、作必要的转换、再将数据加载到数据仓库,等等。实现这部分功能的是数据仓库的后台数据预处理部分。

数据仓库的应用服务部分提供了各种应用工具,使用这些工具可以对数据仓库中的数据进行复杂的查询分析和知识挖掘等等。没有一种工具可以满足所有的应用需求。可选择的工具大致分为:数据挖掘工具:数据挖掘是基于人工智能来分析数据的一种技术,通过对数据仓库中数据的分析去发现一些用户可能没有想到的模式和数据关系。特别查询工具:特别查询提供了一种能力,使得分析人员可以提交一些特别的问题,并产生相应的结果。在线分析处理(OLAP,On-Line Analytical Processing):在线分析处理以数据立方体或多维的方式来查看数据,允许用户进行钻取以获得更详细或更概括的数据,或者对不同的“维”如时间、商品等进行切片操作。OLAP工具可用于对商业问题进行分析,是最常用的辅助决策工具。

2、数据挖掘

2.1 数据挖掘的概念

数据挖掘是指从大量的数据中提取有用的信息和知识的过程。所发现的信息和知识是潜在的并隐藏在大量数据背后的,是用户感兴趣的、可理解、可运用的知识。所以,数据挖掘有时也被人们称为知识挖掘、知识提取、知识发现等。

数据挖掘也可视为是一类深层次的新型数据分析方法,它与传统的数据分析的本质区别在于:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,所得到的信息通常是预先未知的、也是很难预料到的,甚至与人的直觉是相背的,但又是非常有用的;而传统的数据分析得到的信息则是浮在表面的、人的直觉能够感受到的、或与人的直觉较为相近的。

2.2 数据挖掘的过程

数据挖掘过程,可以概括为数据准备、数据挖掘及结果的解释和评价三部分。

2.2.1 数据准备

数据准备一般包括三个子步骤:数据集成、数据选择、数据预处理。数据集成将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性、处理数据中的遗漏和清洗“脏数据”等。数据选择的目的是辨别出需要分析的数据集合,即目标数据(Target Data),是以用户需求驱动的从原始数据库中抽取的一组数据,它使处理范围缩小,提高数据挖掘的质量。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换,预处理目的是为了克服目前数据挖掘工具的局限性。

2.2.2 数据挖掘

数据挖掘阶段首先要决定挖掘的任务或目标,确定了任务或目标之后我们才能决定使用什么样的挖掘方法。确定挖掘任务后选择合适的算法,可进行数据挖掘操作,获取相应的模式。

2.2.3 结果的解释和评价

经过数据挖掘阶段后,获得了一些模式结果,但通常存在冗余或无关的模式。有可能这些模式不满足用户要求,这时则需退回到发现过程的前面阶段,可能需要获取新的数据,采用新的数据预处理方法,换一种挖掘方法等等。

2.3 数据挖掘技术

数据挖掘技术主要分为:关联分析、时序模式、聚类、分类、偏差检测和预测等。

2.3.1 关联分析

关联分析用来发现关联规则。它是从数据库中发现知识的一类重要方法。关联分析广泛用于购物篮或事务数据分析。

2.3.2 时序模式

时间序列模式是用变量过去的值来预测未来的值。比如可以用前六天的数据来预测第七天的值,这样就建立了一个区间大小为7的窗口。

2.3.3 聚类

聚类是把整个数据库分成不同的组群。它的目的是使得群与群之间差别很明显,而同一个群内的数据尽量相似。划分出来的组群具有一定的意义,我们称为类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离较大。

2.3.4 分类

数据挖掘应用最多的任务要属分类。分类找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象类。该模式能把数据库中的元组映射到给定类别中的某一个。

2.3.5 偏差检测

所谓偏差检测就是在数据分析中发现有很多异常情况存在于数据库中,我们根据这种异常情况可以获得很多有用的信息

2.3.6 预测

预测可以利用历史数据或数据分布依据一定的模型计算出数值数据或识别出未来分布趋势等。

2.4 数据挖掘面临的主要问题及对策

2.4.1 数据挖掘面临的主要问题

数据挖掘在不断的实际应用中,正不断地吸取各种领域的经验而逐渐成熟。从目前的情况来看,在运用现代数据挖掘技术时还需要注意一些问题,如数据挖掘任务、数据挖掘方法、用户交互、挖掘性能和数据类型多样性等问题。

2.4.2 主要对策

针对数据挖掘现在面临的主要问题,所应用的对策有以下一些:(1)与数据仓库技术结合。数据仓库可以为数据挖掘提供经过清洗的和转换的、完整的数据资源。(2)挖掘多种类型的知识。数据挖掘除了最常见的关联与分类之外,还有许多重要的任务待进一步的开发,包括聚合、预测模型以及时间相关分析等等。(3)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,如SQL语言一样的形式化和标准化。(4)可视化数据挖掘。寻求数据挖掘过程中的可视化方法,使知识发现的过程便于用户的理解,也便于在知识发现的过程中进行人机交互。(5)高效的数据挖掘。高效性和可伸缩性是目前数据挖掘算法的焦点之一,随着并行的、分布式的以及增长式的数据挖掘技术的研究与发展,这种趋势将会继续得到进一步的发展。(6)数据挖掘的应用。更加广泛的将数据挖掘技术应用于现实世界也是一个非常重要的研究方向。

3、数据挖掘与数据仓库的关系

3.1 数据挖掘是数据仓库发展的必然结果

随着大量数据被收集,从原始数据中得到有价值的决策信息越来越困难,于是新的数据库的体系结构产生了,即出现了数据仓库。数据仓库中存放的是从原始数据中经过计算和统计后得到的满足决策者需要的数据,这种数据也被称为是信息型或分析型数据。联机分析处理工具是基于数据仓库的信息分析处理过程,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力,但对于深层次的分析,如数据分类、聚类和数据随时间变化的特性,仍然需要其他分析工具。数据挖掘可以看作是联机分析处理的高级阶段。

3.2 数据仓库为数据挖掘提供应用基础

从数据挖掘的定义可以看出,数据挖掘包含一系列旨在从数据库中发现有用而未发现的模式的技术,如果将其与数据仓库紧密联系在一起,将获得意外的成功。

4、结语

本章主要介绍了数据仓库的概念、特点和体系结构,以及数据挖掘的概念、数据挖掘的过程和数据挖掘的技术,和数据挖掘面临的主要问题及对策,最后分析了数据挖掘与数据仓库的关系。为数据挖掘与数据仓库的实际运用打下坚实的理论基础。

参考文献

[1]吴庆慧.在金融数据库营销中的一种数据挖掘与决策分析的方法.中国科学技术大学学报,2009,39(2):208~214.

[2]高祥涛.数据挖掘在水文相似年查找中的应用研究.计算机工程与应用,2009,45(5):243~245.

[3]朱明.数据挖掘.合肥:中国科学技术大学出版社,2002:2~5.

数据仓库范文第8篇

近年来,我国的部队管理体系已经逐渐向着自动化方向发展,部队中各个部门都建立了一定的管理体系,也逐渐脱离了人工管理模式,实现信息现代化模式,很大程度提高了部队工作的效率,但是由于外界因素与经济发展的多样化以及人们的思维模式也在不断改变,从而出现了一些新问题,使得部队管理体系存在着一定问题:第一、关联性小、系统比较独立。现阶段,部队采购食品系统的作用以及目的比较简单,思维面也比较窄,也就是说按照清单进行食品采购时,不能充分考虑到采购人员的健康、效率等问题,不能达到最优化采购方式,因此就变得比较独立;第二,数据功能简单,可靠性不高。现阶段,部队食品采购数据只是对采购的种类与过程进行简单记录,时间一久,就会被损坏或者丢失;第三,数据分散不集中。现阶段与部队人员健康、起居饮食、训练相关的数据分散在不同系统中,使得数据变得不一致、不完整,仅仅只能进行简单查询、汇总、统计等工作,不能对数据进行多角度分析、关联等,不能为采购食品提供很好的政策支持。针对部队采购存在的问题,可以利用数据仓库以及数据挖掘技术建立多为数据库,利用数据挖掘进技术对食品采购数据进行挖掘。依据现阶段部队的实际发展情况,建立一套新数据库的成本代价比较高,因此,选用了目前社会上通用方法,对已经存在的数据进行一定改革与拓展,合理优化系统数据,成为新的数据库。并且选取对数据挖掘影响比较大的系统性分析,包括训练系统,食品采购系统、人员管理系统以及医疗卫生系统。针对食品采购采购系统建立数据模型。

二、在部队食品采购系统中的应用以及其价值评价

在部队食品采购系统实际应用工程中,其实可以运用MicrosoftSQLServerAnalysisServices来对数据进行分析,并且在数据挖掘过程中对多维数据进行描述与查找起到一定作用。因为多维数据比较复杂,增长的也比较快,因此,进行手动查找是很困难的,数据挖掘技术提供的计算模式可以很好的对数据进行分析与查找。在建设部队食品采购仓库数据的时候,数据内容主要包括了人员的健康、兵员的饮食以及训练等,进行数据挖掘主要包括以下内容:第一,把每个主题信息数据进行收集、汇总、分析等,对人员情况、健康、饮食、训练等进行合理分析;第二,多维分析数据信息。根据部队的实际情况,利用数据挖掘技术对部队人员健康、饮食、训练等数据信息进行多维分析,其中包含上钻、切片、下钻等;第三,挖掘健康与饮食之间的内在关系。根据数据库中许多面向主题的历史数据,采用数据挖掘技术进行分析与演算得到部队人员的训练和健康情况与部队饮食之间内在关系,以便于为部队食品采购提供合理的、有效的保障,从而提高部队整体人员的健康水平、身体素质以及训练质量,对提高我国部队战斗力有着深远的意义。

三、结束语

总而言之,对数据仓库及数据挖掘技术在部队食品采购系统中的应用进行分析与理解,合理的建立部队食品采集数据库,对数据仓库以及数据挖掘技术进行一定的分析,得到多维数据,发现饮食和人员健康以及训练情况的关系,为部队发展提供科学依据,对提高我国部队整体水平起到很大作用

数据仓库范文第9篇

关键词:飞行参数; 数据仓库; 星型模式; 物理模型; 元数据模型; 粒度模型

中图分类号:TP391文献标识码:A

文章编号:1004-373X(2010)08-0130-04

Research on Modeling of Flight Parameters Data Warehouse

GUO Hong-ning, NAN Jian-guo, WAN Ming

(Engineering Institute, AirForce Engineering University, Xi’an 710038, China)

Abstract: According to the practical problems that the departments of aircraft maintenance are faced with such as great amount of flight parameter data,andlow capability of data analysis and processing which caused numerous data to beturned into information trash, the flight parameter data warehouse model is brought up, as well as the concept model, logical model, physical model, metadata model and granularity model of flight parameters. The existing physical model was improved by combining RAID 5 technology with data warehouse physical model theory. As a result, the store device reliability was enhanced and the system response time was shortened.

Keywords: flight parameter; data warehouse; star schema; physical model; metadata model; granularity model

0 引 言

飞参系统是飞行参数记录与处理系统的简称,用于对飞机各系统工作状态参数进行测量、记录与处理[1]。飞参系统的使用,将使部队在机务维护、飞行训练、事故分析等各个方面的保障训练水平有了很大提高,但是目前飞参系统在使用上存在着分析手段落后,分析工具欠缺等问题,使大量的飞参数据得不到有效利用[2]。因此,探索先进的飞参数据分析手段,研制适用的飞参数据分析工具已成为当务之急。

数据仓库及数据挖掘技术的出现,为解决装备信息化过程中数据与处理手段的矛盾提供了途径。数据仓库是一种概念或称为模式,而非一种产品。在此,基于数据仓库技术建立的飞参数据分析系统模型,为飞参数据的管理与分析探索出了一种有效的模式。它的目标是有效地对庞大的飞参数据进行深层分析,从中发现隐藏在大量数据背后的各种信息,进而辅助飞机维修人员和飞行人员在执行保障和训练任务时更好地进行决策。

1 飞参数据多维数据模型

1.1 飞参数据多维数据模型设计

“面向主题”是数据仓库中数据组织的基本原则。数据仓库的构造过程,首先就是确定主题的过程。数据仓库的设计者必须明确该数据仓库的用途,并将其归纳为若干具体的、易于利用数据组织并加以分析的主题[3]。根据对部队实际需求的详细调研,部队的维护工作及飞参数据的使用情况具有如下特点:

(1) 维护数据的孤立性。现有飞参数据只是孤立地存储于以架次为单位的数据文件中。在进行数据分析时,各专业人员从当前架次数据文件中检索出本专业的相关数据进行分析。这种检索模式使得一次只能对单一架次的数据进行分析,不仅存在检索效率低下的问题,同时难以对某架飞机历史数据进行过程分析,更不能对某型飞机进行更深入的综合分析。

(2) 故障分析的单一性。飞参数据的使用者往往是就某一故障而分析某一故障,而这一故障中隐含的其他信息是得不到充分挖掘的。例如,有些并发故障、次生故障难以发现,这些问题都造成现有飞参数据分析手段与能力的不足。

(3) 维护工作的专业性强。飞机的维护工作通常是按专业来划分的(如机械、电子等),对维护人员的知识结构、工作经验等的专业性要求很强。然而,相应的机务部队的编制体制也是按照专业来规划的,所以各专业的独立性很强,同时各专业间也有交联。

综合以上特点不难得出,具体的飞参数据主题应围绕着各个专业而组织,只有以专业分析主题为依据来规划数据的组织,才能保证数据仓库的内容逻辑清楚、条理明晰、脉络分明,从而更好地适应维护工作。同时,主题的抽取必须体现出独立性和明确性的特点,即主题要有独立的内涵,各主题之间要有明确的界限,不应有依存关系。要保证与主题相关的所有数据都能得到正确的组织,避免数据的缺失与冗余。综合以上因素,结合数据仓库的主题组织原则、飞机本身的个体特征以及飞参数据产生的时序性,将整个数据仓库系统的数据模型划分为三个维度:

主题维 包括四个维护专业主题和飞行训练评估主题共五个主题。

型号维 包括飞机机型与编号信息。

时间维 包括日期与架次信息。

飞参数据仓库的三维数据模型如图1所示。

图1 飞参数据仓库的三维数据模型

1.2 飞参数据多维数据模型的OLAP应用

基参数据仓库的三维数据模型,既可以涵盖原有飞参数据的分析方法,又能够在多维空间中实现OLAP分析,为飞机故障的发现、决策辅助、故障分析与预测等提供先进的平台与技术手段。

联机分析处理OLAP是一种决策分析工具,它可以根据决策分析者的角度将数据进行分类与运算,对大量数据进行复杂的查询处理,并以直观、易理解的形式将查询结果提供给决策分析者[4]。OLAP是基于数据仓库的信息分析处理过程,是数据仓库中用户的接口部分。对同一主题的数据,OLAP展现可以在不同的角度对数据进行展示,用户可以根据需要,随意组合展示角度和展示方式。在分析的过程中,用户可以选定所有的角度,既可以在各种角度的综合作用下进行分析,也可以只选择自己感兴趣的角度进行分析。例如,可以进行下列不同角度的展现:某飞机在各个时间段内的故障趋势及同期比;某飞机在各个专业内的故障趋势及同期比;某单位在各个机型内的故障趋势及同期比;某段时间内,故障时间和完好时间在总工作时间量中所占的比重等。

分析时除了灵活选择地维度外,系统还支持在某一维度上的钻取分析。例如,在按照主题分类和时间角度对飞机进行分析时,用户可以根据需要采取向下钻取(Drill)的分析方式,查看时间角度上更细节的数据,如查看每个季度每月的数据或只查看某一季度下面三个月的数据。

2 飞参数据仓库建模

飞行参数多维数据模型仅从数据层面上对飞参数据进行分析,而建立飞参数据仓库还要采取下列步骤:在数据仓库的构建过程中,将客观事物从现实世界的存在到计算机内物理实现的抽象过程划分为四个阶段,即现实世界(Real World)、概念世界(Concept World)、逻辑世界(Logical World)和计算机世界(Computer World)。与概念世界、逻辑世界和计算机世界相对应的数据模型,分别为概念模型(Concept Model)、逻辑模型(Logical Model)和物理模型(Physical Model),这是在数据仓库开发过程中需要使用的三种模型[5]。描述数据仓库的各种数据模型,除了上面提到的三种外,还有元数据模型和粒度模型。图2给出了数据仓库构造过程中各种数据模型的层次及相互关系。

图2 数据仓库构造过程中的各种数据模型

2.1 概念模型

概念模型的设计主要是确定数据仓库中应该包含的数据类及其相互关系。概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时不必考虑具体技术条件的限制。目前,常用的概念数据模型有星型模式、雪花模式和事实星座模式三种。星型模式是一种非常简洁的数据仓库概念模型,它可以准确地反映出各实体之间的逻辑关系,并依据实体的重要程度,将这种关系展示出来[6]。雪花模式是在星型模式的基础上拓展而来的,它是在事实表和维度表的基础上,增加了详细类别表,用于对维度表进行描述。事实星座模式需要多个事实表共享维度表,因而可以视为星型模式的集合。在设计中为了提高查询性能和便于用户安排不同的查询,采用了星形模式,其概念模型如图3所示。

图3 飞参数据仓库的星型概念模型

2.2 逻辑模型

逻辑数据模型,是从概念模型过渡到物理模型的中间层次,因此又称为中间层模型。可以认为它是数据仓库开发者与使用者之间,就数据仓库的开发进行交流和讨论的工具和平台。通过逻辑模型,设计者可向数据仓库的用户提供比概念模型更为详细的“系统功能结构图”。开发者的任务就是要保证逻辑模型的完整性和正确性,并能满足用户的使用需求。这里的逻辑数据模型设计,主要参照了各个主题的相关专业知识。图4中的飞行数据为初始数据组,它体现了发动机实体的本质特征。出厂原始数据和出厂日期为二次数据组,它们通过链接部件与初始数据组相连,对初始数据组的内容和属性加以详细说明;其余部分为类型数据组,它可以理解为在初始数据组主题下,逐渐细化的分类数据,相对靠左侧的是超类型数据组,相对靠右侧的称为子类型数据组。

图4 飞参数据仓库的逻辑模型

2.3 物理模型

数据仓库的物理数据模型指逻辑模型在计算机世界中的具体实现方法,包括物理存取方式的设计、数据存储结构的构造、数据存放位置的确定等。物理模型设计的主要内容包括以下几个方面:

(1) 数据存储结构的确定。作为数据仓库的基础,数据库管理系统(DBMS)往往可以向用户提供多种存储结构,每种存储结构各有其独特的实现方式。在利用DBMS构建数据仓库时,应当统一考虑飞行数据的存储时间、空间效率、数据维护成本等各方面因素,选用合适的存储结构。

(2) 索引策略的确定。飞参数据仓库中的数据量十分庞大,远远超过一般的业务数据库系统。但数据仓库的内容更新频率却不高,往往采用定期导入新数据的方法。因此,为有效提高数据仓库的运行效率,可在对常见查询请求所访问的数据进行分析的基础上,设计建立较为复杂的索引策略。由参数据仓库的内容具有非易失性,因此尽管设计和建立索引的工作量较大,维护却较为简单。

(3) 数据存放位置的确定。不同的数据存储介质各具特点,目前硬盘的价格已经很低,可以采用磁盘冗余阵列存储数据,既提高了访问性能,又提高了可靠性。

(4) 存储分配参数的确定。在创建传统数据库的工作中,一项重要的内容就是确定一些具体的、与数据存储分配相关的参数,如数据块的大小,缓冲区的大小,以及缓冲区的数量等。飞参数据仓库是依托DBMS而建立的,因此在创建飞参数据仓库时,必须进行这一步工作。这一部分的工作主要集中在将数据仓库的模型结合实际的系统加以物化的过程。

飞参数据仓库系统与其他业务系统不同,尤其需要分析决策的实时性,这是由作战的最终用途所决定的。为有效地实现对作战的保障,还要求系统的可靠性要高。基于以上特点,飞参数据仓库系统物理结构采用双节点多处理器的服务器,共享存储空间。存储系统采用大容量的廉价冗余磁盘阵列(RAID5)系统。具体的物理结构如图5所示。采用RAID5系统的优点是:可提高磁盘的I/O性能和提供容错能力,磁盘的利用率较高,这样既缩短了系统的数据访问响应时间,又提高了系统的可靠性。

图5 飞参数据仓库物理结构

2.4 元数据模型

元数据的主要作用是对飞参数据仓库中各专业数据的性质做出说明,从而使每个数据都有确切的含义[7]。在数据仓库建立过程中,元数据起着十分重要的作用,他所描述的对象,涉及数据仓库的各个方面。根据用户对数据仓库的认识和使用目的,可将元数据划分为两大类,如图6所示。

图6 元数据的分类及作用

(1) 技术元数据(Technical Metadata)。它将开发工具、应用程序以及数据仓库系统联系在一起,对分析、设计、开发等所有技术环节进行详细说明。技术元数据主要供飞参数据仓库的数据仓库管理人员和应用开发人员使用,为技术人员维护和扩展系统,提供了一个详细的说明书和结构图 [8]。它所包含的内容如表1所示。

表1 技术元数据的内容

项目作 用

基础数据信息对飞参数据仓库和OLAP系统的体系结构与实施方案做出详细的描述

抽取调度信息说明飞参数据从数据源中经过抽取、清洗、转换,最终进入数据仓库的方法

映射依赖信息对飞参数据仓库内部各表之间的依赖、映射关系,表与视图的对应关系,中间表与源表的依存关系等,做出详细的解释

其他技术信息介绍系统导入的元数据、特定用户所产生元数据的情况

(2) 专业元数据(Speciality Metadata)。专业元数据是通用专业术语和关于数据仓库中上下文信息的集合,它是联系用户和数据仓库中数据的桥梁,为用户提供了有关数据仓库的整体结构视图。专业元数据包含有面向应用的文档(系统简介、使用导航等),以及各种术语的定义及所有报表的细节[9]。具体内容如表2所示。

2.5 粒度模型

粒度指数据仓库中记录数据或对数据进行综合时所用的时间段参数,它决定了数据仓库中所存储数据单元在时间上的详细程度和级别[10]。粒度的确定没有绝对严格的标准,它是在对飞行参数数据模型深入了解的基础上,对分析需求、系统开销、软件能力等各方面因素进行综合考虑后的折中,粒度确定过程的本身也是一个决策过程。

表2 专业元数据的内容

项 目作用

飞机概念信息介绍飞机的专业概念和数据模型,说明各专业之间的关系,从而为用户提供帮助

多维数据信息对飞机概念信息的进一步细化与深化,为用户提供多维数据仓库中有关维定义、维类别、数据立方体,以及数据集市的聚合原则等方面信息

数据依存信息描述飞参数据模型与物理数据间的依存、对应关系,说明物理上的库、表及其属性与具体专业属性之间的对应关系

数据挖掘信息描述飞参数据仓库中语义关联和专有的概念层次关系,为基于元数据的假设、生成和结果过滤准备条件,从而支持数据挖掘

查询导航信息对飞参数据依存信息的全面细化,便于实现基于业务术语的请求在数据库中的查询,并实现面向业务的导航

划分粒度的关键是正确估算出表的行数。由参数据存储以帧为单位,而每秒的数据量可达到4~8帧,由此估算出表的行数是非常大的,约106~108行,因此这里采用了双粒度模型,如图7所示。

图7 飞参数据仓库双重粒度模型

3 结 语

针对现有飞参数据的孤立性、故障分析的单一性等问题,本文按照主题、时间、型号三个维度将飞参数据进行了划分,并对飞参数据仓库的概念模型、逻辑模型、物理模型、元数据模型和粒度模型进行了深入研究。对传统的物理模型进行了有效的改进,经实践检验,大幅度提高了存储设备的可靠性,缩短了系统数据的访问响应时间。飞参数据仓库可以高效地应用于航空维修故障诊断分析领域,也可以有效支持OLAP分析和数据挖掘等技术,为提高现有飞参数据的分析水平提供有力的支持。

参考文献

[1]梁建海, 孙秀霞, 杜军. 基于数据挖掘的飞行参数处理方法研究[J]. 弹箭与制导学报, 2005, 25(1): 7679.

[2]刘钰, 张风鸣, 惠晓滨. 数据仓库技术在飞参数据处理中的应用[J]. 计算机工程, 2004, 30(8): 9597.

[3]苏新宁, 杨建林, 江念南. 数据仓库和数据挖掘[M]. 北京: 清华大学出版社, 2006.

[4]林璇, 冯健文, 陈启买. 餐饮决策支持系统中OLAP数据仓库的设计与实现[J]. 计算机工程与设计, 2006, 27(21): 41424144.

[5]宣爱斌. Soars比较购物分析数据仓库的设计[D]. 上海: 复旦大学, 2008.

[6]王骏. 构建数据仓库实例[J]. 计算机工程与设计, 2006, 27(19): 36633665.

[7]谢福成, 王备战, 史亮, 等. 基于银行数据仓库的元数据管理系统[J]. 计算机工程, 2009, 35(9): 7981.

[8]郇秀霞, 王红. 基于数据仓库的QAR数据分析[J]. 计算机工程与设计, 2008, 29(10): 26852688.

[9]潘定, 沈钧毅. 数据仓库环境的元数据管理技术综述[J]. 微电子学与计算机, 2005, 22(11): 1720.

数据仓库范文第10篇

谈到大数据,首先想到的是数据管理,在数据管理方面,人们想到的是Hadoop和MapReduce等新兴技术,但是这些新兴技术并不能解决所有的数据管理问题。数据仓库作为一种传统的数据技术在大数据时代依然焕发着自己的活力。

数据仓库:从技术角度看问题

说到数据仓库,就要从数据仓库的概念提出说起。数据仓库概念最早诞生于1983年,然后就出现了商务智能,直到20世纪90年代开始成熟,并出现了提取、转换和加载(ETL),ETL的出现大大促进了商务智能(BI)的发展。以后,数据仓库出现了各种扩展,出现了多维的联机分析处理(OLAP)、数据集市、探查型数据仓库和ODS。

有了ODS即便更新和业务处理遇到集成数据问题,系统还是能够进行处理。其后,星型模型和事实表等都有了容身之地。有了探索型数据仓库,统计学家有了一个数据基础,可以支撑从数据管理员到统计分析员等不同角色的数据挖掘分析需求。一直到后来,数据仓库变成了企业的信息工厂,进而数据仓库也被称为企业数据仓库(EDW)。

随着EDW环境复杂性的增加,企业越来越认为需要一种监控机制来管理数据仓库,而这种监控机制与事务处理的监控机制本质上存在着各种差异。与此同时,商务智能的发展也随着数据仓库技术的发展而不断演进,商务智能的发展要求其不仅仅为决策层提供支持,同时,也要给普通的业务人员提供支持。不仅要能从整个战略层面进行综合分析,还能够在具体的战术层面进行详细指导,这些是商务智能未来的发展趋势。随着信息量的快速增长,产生了如网页文本等信息数据分析的需求。进而衍生了对大数据的分析技术。

事实上,大数据和数据仓库是同一个问题的两个方面,大数据是业务视角,需要汇聚各类数据,建立客户全景视图,实现客户深度洞察,而数据仓库是技术视角,需要汇聚各类数据,全景实现数据全生命周期管理、元数据管理和数据监视管理。

数据仓库和大数据的结合就是通过技术手段来解决业务问题。随着大数据时代的发展,数据仓库对于企业决策的支持作用将会越来越大。由此,数据仓库也成为了各大数据解决方案厂商着力开展的业务领域。IBM、甲骨文,惠普、Teradata等厂商纷纷部署了自己的数据仓库技术和产品。绝大多数的数据仓库厂商能够利用网格或者云架构将他们的产品扩展到PB级别,而且他们能够完成数据库内分析,即在大规模并行数据仓库网格或者云环境中实现。他们还可以在企业数据仓库之内来支持数据转化和数据清洗功能。

数据仓库发展迎挑战

目前,大量的数据运行的企业中,新兴的数据类型层出不穷,数据量增加的速度越来越快,越来越多的业务提出实时的需求,所有这些都让数据仓库在企业运营和领导决策支持中显现出“疲态”。

数据仓库遇到的第一个挑战是对大量数据的存储和管理。现在的数据量已经大大超越了传统事物处理的数据量,而且随着时间的推移,数据量还将不断增加,数据类型还将更加多元化。

第二是数据仓库要解决并行处理的问题。在传统联机事务处理应用中,用户访问系统的特点是短小而密集。对于一个多处理机系统来说,能够将用户的请求进行均衡分担进行并行操作是非常关键的。在数据仓库系统中,用户访问的特点是庞大而稀疏,每一个查询和统计都很复杂,但是访问频率很低。

最后,对于企业级数据仓库而言,数据源的 ETL操作是另一个挑战,特别是实时的ETL操作。传统的数据工具不能解决高容量和低延迟的需求,而能够满足这些需求的技术正是企业需要的。要解决这项需求所面临的主要挑战是,是否可以在给定的时间内移动必要的数据量。传统的批量处理过程需要几个小时甚至几天的时间才能够完成这样的操作,这就不能满足业务实时决策的要求。其他相关的挑战在加载到数据仓库时要减少操作系统上的影响,因为在数据仓库中运行大的查询会降低操作系统对使用者和客户的服务。

另外,从各种各样用户设备上访问数据仓库中的业务信息,也影响到了数据仓库的工作量以及它所支持的信息。从工作量的角度来看,用户设备需要大量的小查询,就需要在很低的延迟下跨越地域进行回答。从信息的角度来看,用户使用移动设备希望实现随时随地的即时访问,用户需要的是最新的信息。而且需要很快地加载信息,以便用户可以和历史内容一起访问数据。

三把利剑破解数据难题

Forrester高级数据管理分析师James Kobielus曾表示,数据仓库可以通过三种方式帮助企业处理好数据问题:第一,在企业数据仓库中,给不同的数据一个比较稳定的主题划分,按照主题来组织企业数据,比如,数据仓库架构中的OLAP cube,客户数据是一个分区,财务数据是一个分区,人力资源数据是一个分区。不管是物理上的实现还是逻辑上划分,这些数据主题都会比较稳定。这样有利于根据数据的关联性来匹配下游的应用和用户。这是数据仓库管理的核心所在,也是通过数据仓库处理大数据的重要方式。

第二种方式是通过数据库内分析,也就是在数据仓库内部执行数据挖掘。利用数据仓库执行数据清洗、数据挖掘和回归分析。因为使用数据挖掘或者回归分析可以从根本上了解数据建模式,所以这种方式可以很好地处理数据。然后使用数据库内挖掘来填充下游的分析数据集市,数据挖掘和统计模型专业人士可以利用它将复杂的模式实现可视化。

第三种方式就是将数据仓库作为数据治理的核心,可以合理地在数据仓库中维护主数据。当数据仓库作为数据治理与数据清洗的核心时,它将有助于搞清楚所有的信息。在整个企业架构中,数据就像是洪水一般涌入数据仓库,数据仓库作为数据的枢纽,可以确保大数据在下游的应用。

有了这三种方式,然后结合Hadoop、MapReduce等大数据新兴技术,企业就可以处理好大数据难题。

上一篇:海量数据范文 下一篇:数据字典范文