数据仓库应用行业有别

时间:2022-05-18 11:30:11

数据仓库应用行业有别

由于来自国内和国外的竞争日趋激励以及对精细化管理的迫切需求,使得无论是金融企业、电信企业,还是制造企业,都对企业级数据仓库应用产生了强烈的兴趣,并且已经有许多企业进行了大量的实际应用的部署。

今天的IT业界对于采用集中式的数据仓库进行业务决策分析,恐怕已经有比较一致的赞同观点了,甚至有不少人认为,这种方式是实现商业智能(Business Intelligence,BI)的最佳途径。因为全球的信息化进程发展到今天,人们恐怕难以想象,如果沃尔玛不通过它的卫星把来自全球的卖场信息实时传送到位于美国的集中的数据仓库中,它又怎能面向全球众多卖场和众多有着完全不同消费习惯的消费者做出合理的营销决策。同样,在银行,几乎没有人会认为,采用相互独立的视图对信用卡数据和信贷数据进行独立分析能做出准确的判断并提出恰当的风险控制或者营销上的决策。

而近日,记者在由NCR Teradata数据仓库事业部举办的“2006 Teradata数据仓库峰会”上了解到,上述趋势也正在中国得到越来越多的体现。但无论是金融企业、电信企业,还是制造企业,它们在基本需求一致的情况下,都存在一些特定的需求,所以相应解决方案的设计也应有的放矢。

金融、电信、制造业需求不同

为了实现对金融机构的数据信息进行持续的系统监测和分析,早在2003年11月,银监会就计划用三年左右的时间建立一个“统一规划、统一管理、统一标准、资源共享”的非现场检查信息技术平台。银监会称其为“1104工程”。随着该工程的推进,银监会提出精细化监管的思路,对整个监管业务流程进行了重新设计。新的业务流程亦是一条完整的信息流,每一监管环节都将被记录到银监会新的数据系统中,使被监管机构各方面包括历年的所有信息都一目了然。另外,新巴塞尔协议也要求银行能够保存更详尽、历史更长的业务数据。NCR Teradata数据仓库事业部首席技术官,被业界公认为全球数据仓库技术先驱的宝立明先生认为,推动中国银行业积极采用数据仓库技术的一个重要动力正是来自于这一系列越来越严格的监管措施。因为,正如NCR Teradata数据仓库事业部大中华区总裁吴辅世所言,数据大集中使得银行业有了很好的数据基础,数据质量得到很大提高,而利用数据仓库可以进一步为决策者提供一个单一数据视图,使各级决策者的决策基础保持一致,从而避免分散决策。

宝立明认为,数据仓库最大的优势就在于能够通过单一视图提供深入细致的信息,使得金融企业可以改变传统的被动的风险控制方式,而在风险发生之前就能从深入的数据分析中发现风险发生的端倪,进而采取主动的防范和控制。作为NCR Teradata在中国的一个重要客户,上海证券交易所信息网络公司董事长赵小平说,证券监管、防范交易欺诈等都是交易所的重要职能,但是相关的分析工作涉及许多非结构化的纸面文件。按照有关规定,这些纸面文件必须保留20年,但是时间一长纸面文件难免会破损,降低甚至丧失法律效力。因此,对非结构化数据的处理是上交所数据仓库系统的重要工作之一。如今,上交所已经完成了对包括600万页纸质非结构化数据在内的十几个TB的数据的清理工作,仅2002年完成的一期项目就为15个业务部门提供了200多项应用。如今,该项目的二期也已经顺利完成。

不同于金融业在监管压力下产生的需求,在中国,电信业则是由于竞争程度的加剧,尤其是固话运营商存量客户流失率的攀升,使得电信运营商已开始考虑精细化管理和营销,而这是离不开数据仓库的支持的。而且,3G业务的风生水起也带来了许多新的业务形式,将来这些业务的开展也离不开数据仓库的支持。因此,中国移动目前已经在总公司和全国9个省级公司建立企业级数据仓库。另外,中国电信也从2003年下半年同数据仓库厂商NCR Teradata合作,在全国两个省级公司――浙江省和新疆维吾尔自治区进行相关建设的试点。而目前,试点工作已经取得阶段性成果。

除此之外,在此次数据仓库峰会上,高科技的电子制造企业(台积电、奇美电器等)也成为数据仓库应用的一支新生力量。很多制造企业在完成ERP等基础运营系统的建设后,仍然面临生产系统数据和管理系统数据的分割,无法进行整体决策。在报表分析方面,虽然ERP系统可以产生一些分析报表,但这些报表大多是固定报表,无法灵活、动态地适应企业的决策需要。于是,为了提供进一步的决策支持,许多制造企业开始利用数据仓库对ERP等系统产生的数据进行抽取、转换和装载(ETL),为决策层提供可追踪的、可审计的数据分析服务。

解决方案须量体裁衣

尽管,不同的行业对数据仓库的需求存在许多共性,例如随着企业规模的扩大,如果按照行政部门进行分散决策、分散保有数据,将不能满足新的决策需求,企业需要在统一的数据视图下进行整合的决策。但是,宝立明认为,不同的企业在决策的重点和数据量上存在较大的差别,以至于在具体解决方案的设计上也会有相应的区别。

例如,银行业关注的重点在于风险的控制上,而不存在供应链管理的问题。相反,在制造业,供应链的管理决策将是其关注的重点,除此之外,产品的质量控制也是制造业的决策重点。同样在数据量上,电信企业的数据量是最大的,零售业次之,制造业也是比较大的,相比之下,银行的数据量是比较小的,宝立明举例说明:和电信企业相比,人们存取钱的频率显然要比打电话的频率低得多。

于是解决方案在设计上也应该针对不同的侧重点有所区别。

对于银行业,为了符合新巴塞尔资本协议AIRB登记的需求,需要采用集中式的数据仓库解决方案。在这种方式中,所新巴塞尔资本协议所需的数据及其来源系统均被明白地标示出来,当然,银行内可能不具备某些特定的数据,因此必须建立一套数据搜寻计划。此处所有的来源系统数据都经过加载及转换的程序,然后送到中央数据存放系统。而支持新巴塞尔资本协议所需计算及报告数据,不论是营运单位层级或是整体企业层级,都是由这个中央数据存放系统来提供。这种方式支持了各式各样的数据存取,包括将数据送至某一特定的应用程序或计算及分析工具。这样,就可以将风险数据进行一次性存储,可以供整个企业运用,进行各种分析。金融业整合的风险管理架构如图1所示。

而对于电信企业,由于运营商之间的竞争日益加剧,使得经营分析和决策支持成为基于企业级数据仓库应用的重点。同时,由于电信企业数据量极大,所以数据集中和整合将是系统建设的最大挑战,也是数据仓库能否在营销上发挥作用的前提和基础。以中国电信为例,其IT系统以本地网模式为主,客户、用户资料分散,系统数据众多,差异巨大,结构复杂,多个系统在不同时期分别建设,缺乏统一的规划和关联。面对这种情况,建立全省统一的数据模型、实现全省标准化的代码管理、统一统计口径,采用闭环的数据质量管理办法和流程就变得非常重要。电信业数据仓库系统架构如图2所示。

链接:数据仓库“牛市”显身手

“对不起,原本计划由我们交易所的总工程师白硕给大家做主题发言的,但是白总临时去参加证监会召开的一个重要会议了,只好由我代替他来做这个发言了。”这是上海证券交易所信息网络公司董事长赵小平在“2006 Teradata数据仓库峰会”上做主题发言时的开场白。

原来,伴随今年以来中国股市出现的多年以来罕见的牛市,受不断攀升的股价影响,股民进出市场的意愿空前高涨,上海证券交易所日均交易量明显放大,目前已高达500多亿元。值得欣慰的是,该交易所在2002年由路透咨询公司协助规划、设计、选型,至今已经完成二期项目的数据仓库系统在此期间表现相当不错。按照每笔交易平均12000元(该数据是今年的统计结果,去年每笔交易大约为9000元)计算,500多亿元总交易量大概需要处理500万笔交易。这样的交易笔数之高即使在伦敦证券交易所也是没有的。而如此众多的交易数据,仅仅需要半个小时就可以被清理并存入数据仓库。赵小平不无骄傲地说:“在这次股市大潮中,我们的数据仓库没有拖后腿。”

然而与之形成对比的是,在交易量猛增的情况下,券商信息系统建设的滞后,形成股市整体交易的瓶颈,造成大量交易堵塞。据赵小平介绍,这也正是白硕总工程师参加紧急会议的主要原因。

上一篇:苏杭信息化脉动 下一篇:DVB-H越走越近