BI 应用新风向

时间:2022-04-23 04:56:29

BI 应用新风向

“五一长假”在国内被视为年度的第一个关键点,企业往往在此开启新计划和策略的执行,市场自然而然表露出信息化应用的新热点:005年5月,软件产业最为活跃的因子来自于商业智能(Business Intelligence,BI)领域―IBM商业智能软件产品包DB2 DWE以及一系列面向行业的BI解决方案;以“数据之道,智胜千里”为主题的2005年Teradata数据仓库峰会暨 NCR Teradata第五届用户大会移师北京;2005中国国际商业智能大会召开;BO和神州数码在京共同拉开了Crystal Reports巡展的大幕……BI,真正走上了快车道。

市场需求驱动下,数据仓库技术日益表现出实时、动态的特点;企业信息管理自然一如既往地朝着智能化方向发展,数据仓库及BI必将随之渗透到各行业的信息化建设中。

数据仓库四字经0

计算机技术发展了几十年,仍然没有摘掉“高新科技”的帽子,尤其是在一些专业性很强的领域。这就让信息技术和应用之间产生了难以跨越的鸿沟,数据仓库(Data Warehouse)是一个活生生的例子。追根溯源,数据仓库的产生已经有二十多年的时间了,但是直到现在许多人对其还是敬而远之。

信息系统应用环境的日渐成熟,BI开始在信息化建设中浮出水面。作为BI应用底层的有力支撑,数据仓库自然地受到了更多的关注。

数据仓库是一个面向主题的、集成的、主要用于决策支持的数据集合。利用这种技术可以动态将异构系统中的数据抽取并集成,在运用清洗、转换等处理手段之后加载到数据仓库中。通过一定周期性的数据刷新,数据仓库可以为用户提供统一的目的性更强的数据视图,为进一步的数据分析提供可能。这正是BI应用的开端。

有容乃大

企业信息化的进步,带来的是数据的不断增加。无论企业的业务操作系统还是用于改善企业内部流程的财务、人事以及后勤管理信息系统,都会产生大量的数据。NCR Teradata首席技术官宝立明表示,如今数据产生的速度甚至超过了摩尔定律,在过去两年内产生的数据比之前4万年所产生的数据还要多,而且这种增长趋势还在继续。

数据的增长是永恒的规律,到2004年为止,经过准确测算的最大数据仓库的容量已经超过了30TB。海量的数据除了给存储制造了巨大的挑战,更为人们如何利用这些数据提出了考验。

数据不等于信息,数据的产生不是随着人为意志的变化而改变的。没有经过处理的数据犹如一潭死水,并没有太大价值。只有经过有效的手段对数据进行重新识别和开发,才能产生信息,而且只有针对准确的数据采用正确的提取和处理方法,才能得到有效的信息。这正是数据仓库相对于传统数据库的优势。

在ERP、CRM、HRM、OA等传统的应用系统的建设过程中都会建造相对应的数据库。这些数据库的功效更多地集中在业务数据的存取方面,也就是数据的现在式状态。而数据仓库的建立,不仅仅可以实现大容量数据的加载和存储,更有利于解决传统数据库通常不能提供的分析能力,发掘历史数据中隐含的大量有价值的信息。也就是说,数据仓库更在意的是数据的过去式,并通过对过去式数据的分析为企业的将来决策提供支持。

数据仓库应用的开发通常是围绕主题展开的,根据企业主题的分析目标,集成相关的数据信息,集成的数据量越庞大,越全面,主题结论就会越客观,越准确。

动则思变

所谓“仓库”,在人们的印象中,除了具有“大”的特点外,还有一个重要特点就是“牢”。牢,通常意指静止的状态。早期的数据仓库和它的名字一样,只是数据的仓库,企业会定期进行数据的加载和存放,只有当企业需要进行长期决策时才会去数据仓库提取数据进行分析。造成这种局面的原因,一方面是因为数据仓库技术上的不成熟导致数据的加载或者提取与分析的工作异常繁琐;另一方面是因为用户企业对于及时性信息的获取的需求不那么强烈。

但是,现在激烈的市场竞争,要求企业对于市场的变化进行实时性的响应。这对数据仓库的存和取的周期提出了更高的要求,建设动态数据仓库顺理成章成为BI领域一种新的趋势。谈到数据仓库的发展,长期在国内从事于技术服务的Teradata中国区副总经理王闯舟介绍,数据仓库这几年的变化主要体现在性能方面,也就是应对企业实时需求的能力。

传统的数据仓库的数据采集主要集中在企业内部,具有很强的操作周期性,目的也是为了帮助管理层制定长期的决策。而现在,数据仓库必须实时采集企业内部、市场用户需求信息甚至竞争对手的信息,争分夺秒制定能够领先市场的决策。

基于数据仓库的信息分析逐渐转向基于事件的分析,不再需要专业人士的定期参与。据悉,由于数据模式趋向由事件驱动和软件程序处理,目前新建设的数据仓库系统都具有极佳的性能,回复时间已经可以以毫秒计量。

广以致远

数据仓库发展的另外一个趋势,就是它的服务对象在不断扩展。就在一年多以前,提起商业智能的概念,人们无一例外地会想到它是为企业管理者服务的。通过集成分散在企业内部应用系统的数据,为企业领导展现统一的浅显易读的信息视图,帮助他们完成企业战略的制定。现在,数据仓库访问数据的用户数量高速增长,这种增长主要源于商业智能应用中对机构和组织的虚拟化。

商业智能支持的决策者的范围由“象牙塔”中的企业管理高层逐渐扩展到业务执行层。每个业务部门的每个业务执行者都可以在数据仓库中得到自己需要的信息,辅助业务细节决策,从而从最底层快速响应市场的变化。“将在外,君命有所不受”,业务人员往往走在市场的最前线,他们的反应速度直接决定着企业的应变能力。在商业智能的支持下,他们会更加敏捷。通过获取最新鲜的数据,立即从数据仓库中透视商业事件,发掘数据中所有的商业关系。新一代数据仓库通过极强的可扩展性,支持数以百万的用户访问多达PB的数据。即使这种情况下,基本做到永不停机,消除了各种预期及突发的停机时间。

St Paul Travelers保险公司技术服务部副总裁Sullivan McConnell介绍,该公司主营业务包括财产险和人身意外伤害险,数据仓库的建设提供了成熟的定价机制,实现了客户细分,降低了企业的经营风险。通过对公司不同业务的数据整合,可以发现客户新的需求,及时制定价格策略,从而获得更多的市场收入,这个过程大大降低企业的运营成本。

但是,根据他的介绍,该公司仅仅在数据仓库和其它商业智能应用的建设、维护和管理的预算就达到了1400万美元。仅此投入,国内企业可能就已经差了很远,应用也就更需要加快步伐。

数据仓库 vs. 数据库

■ 杨健

1970年,E.F.Codd提出了关系数据库理论,在此基础上,出现了关系数据库管理系统,成为当今数据库应用的主体。上世纪九十年代以来,随着对数据分析和决策支持需求的增长,数据仓库技术应运而生。1992年,数据仓库之父Bill.Inmon在《Building The Data Warehouse》中对数据仓库的定义是:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策和信息的全局共享。数据仓库用于支持管理和决策,面向分析型数据处理,它不同于企业现有的面向交易的操作型数据库;数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。

从狭义的数据引擎角度看,数据库系统,如Oracle、DB2、Informix、SQL Server等,作为各种数据库应用的数据存储管理系统,保存了大量的业务数据或财务数据。在很多情况下,它们也作为数据仓库应用的存储系统。专业的数据仓库引擎则是专门为数据仓库应用而设计的,如NCR Teradata、Informix Redbrick、Sybase IQ等,以及Oracle和DB2的扩展产品,它们有很多特有的设计方式。数据仓库系统对数据引擎有一些特殊要求,如强调数据查询效率而不是数据更新效率、查询的数据量巨大、查询复杂。随着数据仓库应用逐渐向企业全员的发展趋势,大量的在线查询需求日益加强,对数据的大量并发访问和快速响应时间的要求也成为数据仓库引擎必须具备的特性。为适应这些要求,专门的数据仓库引擎进行了独特的设计,例如按列存储的方式和特殊的索引设计。

从广义的数据仓库应用角度看,数据库应用主要用于业务处理,即传统的联机事务处理,其支持的是对数据的快速增加、修改和删除,保证事务的完整性,以及对大量用户的并发支持等应用。而数据仓库应用则面向联机分析处理,包括对多种数据源的集成(ETL)、数据存储、多维数据的生成、数据展现、灵活分析和数据挖掘等。

数据仓库系统通常包含数据源、数据存储、OLAP服务和前端应用四个部分,而元数据管理则贯穿其中。数据要从数据源经过数据抽取、清洗转换、加载的过程放到数据仓库中来。

我们经常提到的数据仓库概念,更多的是指数据仓库应用。现在已经有很多成熟的解决方案,以及覆盖数据质量、ETL、数据引擎、OLAP服务、数据展现、元数据管理等各个数据仓库应用环节的功能强大的工具。

联合数据质量

■ Tho NguyenTony Fisher

公司生存还是死亡取决于其从数据中获得的决策能力,这来自于数据仓库、先进的分析和商业智能。今天,公司需要将各种平台、不同格式、甚至不同地点的数据整合到数据仓库中并保证其数据质量,已达到商务智能的迅速回报。但是,大多数组织还没有将数据质量作为一种前提性的、系统的、持续的企业活动,根据TDWI(The Data Warehousing Institute)近期对数据质量的调查,半数的公司都没有管理数据质量的计划。

干净数据的价值何在?

很多人相信将组织的数据资产发挥最大作用说起来比做起来容易。这也就是为什么数据质量经常被忽视的原因-每个人都知道它是个问题,但都拒绝承认它会对整个组织造成影响,实际上它已经造成了。数据质量对业务意味着什么呢?它可能就是简单地保证企业获得想要的零售目录,也可能是保证企业不想要为每一个不同的地方保留一份额外的拷贝,否则企业的名字和地址有可能被拼错。数据质量的缺失可能意味着客户流失的噩梦。

如果企业实施过电子商务和CRM应用,企业就会了解数据质量是多么重要。但还有哪些领域需要数据质量?多长时间数据质量会被检查?谁需要高质量的数据?更重要的,谁可以通过将数据仓库和数据质量结合来达到商务智能?

任何管理和收集非标准化的、不一致的、或潜在冗余数据的组织都需要进行数据质量管理,其应用行业包括:金融服务(银行、保险、投资)、制造业、医疗健康、政府,等等。

质量低劣的信息对任何组织都是有害的。有效的数据仓库和数据挖掘的一个关键基础就是数据质量。如果数据缺乏足够的质量,那么查询数据仓库和根据这些信息进行决策的人将无法相信其结果。

这些数据只是些原料,还不一定能用。或许,一点点拼写错误造成的重复客户使市场活动预算大大超支,因此要对数据进行合并。也许花了大量时间重组和修正地址数据,但当每月获得新的数据时,这一切又要重来一遍。

大多数组织都有分离的销售、支持和市场团队,组织很难同时管理全部的客户流程和数据基础结构。当存在的系统大多数是相互孤立的情况下,解决CRM的难题要集成所有的数据,而这几乎是不可能的。多数系统都假设其数据是干净的,可以给其它系统使用,而实际情况,远非如此!

如何判定数据质量?

企业有各种各样的原因依赖数据-从识别客户机会到保证制造流程的平滑,而如果数据质量不好,则不可能进行高效的业务决策。按照Gartner的高级研究员Ted Friedman的调查,财富榜前1000名企业因内勤工作操作效率花费或损失的钱将超过其数据仓库或CRM的投资。

数据质量控制是一个很严重的问题。目前,业界有很多软件解决方案可以帮助企业评估和解决数据质量问题。一些提供商甚至提供免费下载的、适合几乎所有平台的数据分析工具,来帮助解决数据质量问题。然而,为了能全面评估这些解决方案,应该全面理解基本的数据质量问题的类型。

大多数公司犯的错误是将数据质量视为“原因―影响”事件。经常发生的情况是,只有当引起了问题后,数据质量问题才引起重视。对于那些成功运用商业智能的公司,数据质量必须被视为优先级最高。企业是生存还是消亡,取决于其信息是否准确和一致。

差的数据可能在不同程度上影响企业,从引起一点窘困到产生数百万美元损失的错误。各种各样的原因可能产生差的数据:数据录入错误,从互联网获得的错误数据,购买的或从外部数据源获得的错误数据,或者在合并好的数据和过时数据时但没有能力区分其差异。

当企业决定面对数据质量问题时最具挑战的一个方面是确定数据问题到底有多差?是否有一个简单方法来完成数据审计,或测试分布在各种数据库和应用中的数据?有一些数据质量的提供商提供了工具来专门处理这个问题:分析系统中数据的完整性,并给出统计报告。没有比通过第一手资料了解组织中错误数据的百分比,来确定需要哪种数据质量解决方案更好的方法了。

企业花费了大量金钱,T预算中相当大的部分来建设复杂的数据库和数据仓库。在探索可用的商务智能过程中,各种应用和系统被部署在企业各方面,并且创建了各种信息收集流程。然而,多数企业忽略最重要的是数据这个事实。因此,企业怎样才能解决数据质量问题并最终获得成功的商务智能呢?

数据仓库可以做什么?

数据仓库是使大量数据产生意义的应用的基础,这些应用有:CRM、门户、ERP、知识管理,而数据仓库需要处理以下问题:

・业务系统;

・ETL(抽取/转换/加载)或集成转换程序;

・企业级数据仓库;

・ODS (Operational Data Store);

・ 数据集市;

・决策支持系统(DSS);

・数据展现/数据挖掘应用。

一个有效的数据质量工具和方法论应该覆盖以下数据质量问题:

・在应用和数据录入期的数据质量;

・在应用集成期间的数据质量 (例如,集成到数据仓库);

・对数据源的灵活的数据质量。

数据仓库从运行于企业各方面的独立系统获得复杂的数据。数据仓库在战略上是势在必行的,它可以使企业对变化的市场快速反应。由于从数据仓库获得数据的商务智能应用持续增长,其数据变得更为重要。一个能提供准确、一致、标准数据的数据仓库可以使企业到达提高收入和优化成本的双重目标,这将成为企业的核心竞争力。

数据仓库之父Bill Inmon说,ETL的目标是将集成的干净的数据加载到数据仓库中,数据质量是其中关键一环。通过集成数据仓库和数据质量,ETL可以提供在企业级管理数据质量能力,为数据管理员/数据分析员和IT/数据仓库专家解决问题。一个实际的数据质量解决方案必须覆盖全部过程:IT/数据仓库专家需要在ETL环境中利用数据质量工具,数据管理员/数据分析员需要数据质量工具来简化复杂的业务规则,包括算法和方法论去确定数据中的错误。

数据如何变迁?

这是个数十亿美元的问题。

为什么企业收集的数据质量如此差?这有各种各样的原因:从数据本身的不明确,依赖数据录入的毫无差错,而一个简单的事实是企业有如此多的不同的数据源来收集信息。

TDWI估计,数据质量问题造成美国企业每年的花费超过6000亿美元。而管理层对数据质量问题的忽视将会造成企业缓慢失血,甚至死亡。这包括不必要的打印、邮寄和人工费用,而更严重的是,它会缓慢但逐渐减少客户和供应商对企业的信任,而且无法基于正确的信息产生合理的决策。

数据的问题是随着时间的推移,其质量迅速退化。专家说在客户数据中大约每个月有2%的记录变得过时。而且,数据录入错误、系统移植、源系统的变化、以及其他一些问题,使得产生的错误车载斗量。当组织分为不同的部门时,数据元素也会发生变化以适应本地业务的需要。对这一群人有价值的数据可能对那一群人毫无意义。

那么,组织如何达到高质量的数据呢?一种办法是什么也不做,等客户自己发现错误,而且他们确实能发现,但这样做的问题是损害客户对数据仓库的信心。第二种办法是有经验的专人负责数据质量,当然,这是很耗时而且昂贵的方法,而且其本身也会产生错误。最高效的方法是采用尽可能自动的方法来提高数据质量。

幸运的是,CRM、商务智能、供应链管理的创新观念正在令领导层对数据质量引起重视,很多人了解到数据质量问题会破坏哪怕是最好的策略,并将错误暴露给范围更广的,更关键的外部客户。目前,企业每年收集的信息增长了十倍,互联网是主要的信息源。随着数据越来越多,包括电子商务、直销、呼叫中心、现有系统等多渠道实体也开始应用,而坏数据(如不一致、不完整、重复或冗余数据)对企业的影响也日益严重,其窘境很清楚:企业怎样才能保证从每个应用、每个系统、每个数据库获得的协同数据发挥最大作用?

企业系统中有大量的数据要放入数据仓库,而且每天还有成千上万的数据在系统间流动,还有企业和供应商、合作伙伴的系统间也有数据流动,其方式可能是数据接口系统,也可能是非结构的Web方式。数据和系统的复杂性增长很容易造成数据模糊。

数据质量很重要,而数据仓库中的数据质量尤其重要,因为数据仓库会为其它系统提供数据,会有传播效应。据估计,数据仓库中约有超过20%的数据有错误、冗余,或其它不可用因素,这对结果有严重影响。

数据进入系统时有多种途径产生错误,修正这些错误需要将数据仓库和数据质量过程融入应用环境中。部分数据质量过程是以业务规则的形式独立于应用的业务规则资料库中,并被多个应用共享。定义业务规则和数据标准可以确保正确的编码、姓名和地址拼写格式、计算公式等。

这些规则都是元数据,要保存在业务规则库或元数据资料库中。入口错误并不是唯一产生错误的地方,另一个主要的错误发生在数据集成的过程中。想象一下要集成到数据仓库中的两个的应用,作为独立的应用,其中的数据没有问题,但是其应用间却有很多差别,这些差别必须被识别出来,使进入数据仓库的数据有唯一的表示。

数据质量从何抓起?

在数据集成过程中有很多机会提高数据质量。最符合逻辑的是在数据源一方,数据源有各种格式、在不同的平台上、分布的范围经常也很广。有些数据源比较完整,而有些则有缺失,甚至是错误的值。通过修正性维护在数据源端避免数据质量问题,将使数据仓库更加有效。

从操作环境到数据仓库的数据迁移过程是很好的解决数据质量问题的机会。为了解决从多数据源来的数据的完整性,首先要解决一下数据源应用的数据质量问题,然后再确定数据融合时的数据兼容性的问题。数据质量工具可以提供很强壮的匹配逻辑来帮助从多数据源的数据融合。

组织中至少有三个角色要关注数据质量:业务分析员、数据仓库管理员、数据质量员。质量的开始点是业务分析员,如果系统规格没有被很好定义,则应用不可能有好的数据质量。如果业务分析员说的“收入”,而实际指“到账收入”,这就存在质量问题。如果业务分析员说“交易量”但没有指明是本地货币还是转换为欧元,这也有质量问题。

业务分析员会首先联想到数据入口错误,他们了解业务,并且会很严格地定义业务规则以保证数据质量,这些业务规则包括从企业规范标准到计算公式的一切。数据质量工具提供了保存和执行这些业务规则的手段。

数据仓库管理员关注于集成中的错误,他负责将数据从操作型环境中导入数据仓库。虽然数据是从不同系统集成的,但他要保证进入数据仓库的数据在格式、结构和定义上是一致的。

第三个重要角色是数据质量员,他负责日常流程维护,要确保每日的工作成功执行,正确的数据源被抽取,用户查询到正确的数据表,等等。数据仓库管理员关心数据仓库的规范和数据加载,而数据质量员关心的是每天加载程序的实际执行和数据仓库的使用。

何为关键问题?

高质量数据并非不可达到的目标,关键是要有将数据作为企业的战略资源的意识。

可以开发一套程序来管理数据质量,并获得高层的支持,雇用或者培训有经验的数据质量专家来检查和执行程序,或者把这类工作外包。而且必须要持续地管理数据质量,并随着业务和系统的变化调整监控和清理流程。

商业的数据质量工具和服务可以将审计、清理和监控数据自动化,这种投资是很值得的。多数商业工具除了审计数据和清理姓名、地址数据外,还开始支持公司定义的业务规则等能力。

数据是一种重要的资源。在当今的商业环境中,那些进行适当投资在数据资源上的公司比那些忽视数据质量、浪费数据资源的公司有更大的成功机会。

数据仓库协会(The Data Warehouse Institute)估计,每年美国的企业因坏的客户数据造成6110亿美元的损失,包括邮寄、打印和人工费用,坏质量数据造成的花费实际上更高。因为错误的地址而遗失客户,或者当客户打电话、逛商店、上网时没有识别出来,造成客户忠诚度的降低甚至客户流失,而客户流失还意味着销售成本的损失、丧失推荐机会、以及未来收入。

关键的业务决策、资源分配、价格变动、市场活动、日常操作都离不开关键企业数据。一家企业是成功还是失败取决于企业级数据仓库中信息质量。然而,数据质量却经常被忽略,他们认为实施数据质量很费钱,而且花费大量人力和时间。

数据仓库可以从多数据源获得数据,并清洗和重组,再通过分析,转化为商务智能,而商务智能有助于解决特定的业务问题,进而反映在企业的资产负债上。

合而为宜的BI

■ 本刊记者 国一凡

数据仓库只是企业BI应用技术框架的一个组成部分。在这个框架中还应该包括联机分析处理(OLAP)、数据挖掘(Data Mining)以及针对不同数据源数据进行抽取、转换、清洗、加载和信息展现功能的各种BI工具。严格意义上讲,数据仓库只是实现BI的有效方式之一。但是,随着企业数据仓库的应用范围的越来越广,它的概念正在向上延伸,不但包含了更多的统计分析模型,甚至BI前端展现工具――几乎涵盖了传统BI的方方面面。这时,BI的概念也超脱了将用户现有数据转化为企业各级决策所需信息这一概念,而是在不断向着整个信息管理的范畴扩展。毕竟,企业信息管理需要全线智能化。

BI成为关键业务

经过十几年甚至几十年的积累,企业的信息化建设布局已经初见规模。ERP、CRM、HRM、OA等信息系统给企业留下了许许多多的数据,对这些数据进行二次利用和再开发,已经提上日程表。据Meta统计,企业数据仓库和商业智能市场已经达到40亿美元,并有望在2008年底增长到100亿美元。企业应用商业智能,通过与业务系统的联合,可以从分散的业务系统中提炼出智能的知识,支持企业的业务决策。IBM大中华区信息管理软件经理金筠认为:“企业信息化建设中,BI的地位已逐渐上升到了关键业务层次。”这种大趋势主要表现在两个方面。过去的智能型分析发生在周期比较长的时间点上,对象是历史性的数据;现在BI更讲究实时性,目的是面向业务性管理。数据仓库中,数据提取和分析以及视图展现原本要通过人为干预的,是被动的。现在,数据仓库基本实现了动态功能,BI前端可以根据事件驱动及时展现统一企业信息视图。

换一个角度,BI意味着将所有分散的企业信息的整合,并从中提取真正有效的信息,加以分析和提炼,为企业业务效率的提升提供帮助。因此,BI解决方案绝不是孤立的。除了和业务系统数据库的对接,BI应该去实现一个更加宏伟的蓝图。正因为此,IBM DB2把商业智能并列于数据库服务器、CM(内容管理)、信息集成,组成了全面知识整合的信息管理平台。

联邦数据考验信息整合

应用技术的不断进步,使得企业信息管理变得愈加复杂。信息管理技术正从支持单一对象、面向记录的数据管理迁移到综合信息基础架构,企业数据规模也从GB级向TB级膨胀。把数据变信息,把数据管理变成信息管理,是企业必须跨越的一个台阶。

这个过程中,企业面临的最大挑战应该就是异构的数据。由于企业内部存在的众多信息系统往往采用不同的技术架构和不同品牌的数据库产品,数据的格式难以统一。另外,不得不提的是随着多媒体技术的发展,多媒体格式的数据量在飞速增加,这对数据的集成工作提出了很高的要求。IBM软件集团信息集成解决方案与部署项目总监黄国威表示,在多数企业用户面临诸如信息孤岛之类的困扰、无法实施商业智能时,联邦数据正在考验着企业信息整合的能力。所谓联邦数据,就是把企业内部不同部门不同系统的数据库作为联邦成员,通过有效的工具和方法,实现单一用户登录、数据信息的统一视图,最终达到企业信息管理的优化访问。

RFID火中添薪

RFID给信息产业带了一道难得的风景,它的出现带来的最大意义是企业供应链管理效率的增强。另一方面,RFID也给企业数据存储和处理带来了很大的负担。毕竟,RFID的数据采集不同于传统模式,它所产生的数据是海量的而且是自动的。这就需要后台系统能够及时、快速准确地做出反应。由于当前RFID数据采集设备对于数据的分辨能力较弱,对无效数据的剔除,保证数据质量也是需要数据仓库等商业智能软件所必需具备的能力之一。

“数据仓库及商业智能的发展,在下一个阶段,需要完善的是先进的数据算法和行业模型,以应对诸如RFID新技术以及行业新需求所带来的挑战。”金筠如是看待BI的发展。

中小企业从报表开始

■ 本刊记者 国一凡

实施商业智能,最大的挑战是缺乏高质量的数据,项目投入也比较大。因此,商业智能通常被认为是大型企业的专利。就目前而言,国内应用商业智能效果最好的主要集中在金融和电信两个IT基础良好和资金雄厚的行业,数量众多的中小企业只能望之兴叹。“其实不然。”神州数码公司增值软件事业部总经理李胜利,“报表,完全可以成为企业应用BI的第一步。”

在传统的管理模式,企业管理者不重视数据,喜欢拍脑门做决定,使得企业的经营风险不断增加。即使一些企业的管理层认识有所提高,投入一些资金在数据库和传统应用系统上,却没有及时将数据转化有效信息,掌握应对市场竞争的利器。这些因素阻碍着中小企业发挥市场反应灵活的优势,获取快速成长。如何解决中小企业的诸多问题呢?商业智能显然是最佳途径。鉴于中小企业资金实力有限,难以实施复杂的商业系统解决方案,选择扩展性强的智能报表是不错的选择。

“虽然许多企业习惯于完成手工或者电子版的数据表格,但是这些数据只是一种表象,企业难以获得真正重要的潜藏在数据后的信息。”BO公司运营总监及水晶报表销售总监孙万均说。“运用Crystal Reports等智能报表工具,可以帮助企业获取简单明确的数据,这对信息记录、传达、比较、分析等工作十分有用。更重要的是,智能报表软件不仅能够记录企业运作结果和状态,它可以修正数据上的错误,追究原因和提出改进对策,更是预测未来的重要工具。”

中小企业不应该贪大求全,进行无谓的攀比,而是立足于企业的发展需要,制定明确的目标。首先考虑到数据的采集和集中,实施过程应该有一定的梯度,呈螺旋式上升。企业需求是发展变化的,而且每个时期的指标可能是不同的,所以企业绝不能只顾眼前,而应该用发展和成长的眼光看待商业智能。

激烈竞争的市场经济时代,驾御企业需要更多智能手段,这同样适用于中小企业。企业不能踯躅不前,在拥有关于业务、客户、购买行为等上千种变量数据情况下,利用好数据,才可以制定正确的业务决策,然后可以在CRM、SRM和其它关键应用领域中实现商业智能。

数据仓库新解

■ 戴艳

数据仓库(DW)未来会怎么发展?有人说是Active DW,也有人说是Real-time DW,还有人说是Dynamic DW、General-purpose DW等。从其历史发展过程来看,以下五个趋势是比较明显的。第一,从战略决策到战术决策的发展,对DW的实时性和可获得性提出了更高的要求。这就需要有更好的变化数据捕捉机制,可以快速方便地将数据抽取至数据仓库中。第二,需求更加多样化。它要求系统从架构和应用层次上去适应不同的需求,并且不同应用之间的交互要非常方便。例如通过XML技术。第三,管理的数据量更大。这对数据建模、数据组织和层次划分提出了更高的要求。要求数据仓库平台可以提供更多的提升性能的方法,如自动存储管理等。第四,数据仓库的功能与业务应用的集成更加紧密。例如用于企业战略管理的平衡计分卡应用等。第五,集成性的要求。数据仓库将于OLTP应用共同使用同一个数据库。数据库中不同的实例服务于不同的应用,管理人员不需额外对这些不同的应用进行配置。数据仓库中涉及到的技术,如ETL、报表、OLAP、Data Mining等越来越趋向于与数据仓库本身集成在一起,使得系统更易扩展和维护。

上一篇:全球首个文档库技术诞生 下一篇:全方位的政务服务