BI应用“抓”数据源头

时间:2022-10-24 02:22:52

BI应用“抓”数据源头

2005年下半年,美国一家第三方调查公司曾经对全球部分存储用户和IT管理人员进行了一次问卷调查,内容包括IT人员在未来一段时间里可能在哪些领域进行投资。调查结果显示,虚拟磁带库(VTL)是被大家所谈论最多的环节,从评分来看,VTL获得了100分,名列榜首。该调查公司预测,虚拟磁带库市场在2006年将以40%的年增长率成长。

大多数存储用户都知道,VTL可以解决不同存储介质之间复杂的数据转换和管理问题,给企业现有的备份环境带来更加快速和可靠的数据恢复,使存储管理的成本显著降低。面对市场上高速增长的需求,近一两年来,市场上出现了越来越多的虚拟磁带库产品,而且不同厂家的产品都具有各自不同的特点和技术优势。

2006年2月16日,Network Appliance(NetApp)公司了其虚拟磁带库领域的新产品系列,包括两款NearStore虚拟磁带库系统,即NearStore VTL解决方案家族的单头NearStore VTL600和双头NearStore VTL1200。NearStore VTL系统是NetApp公司在去年5月份收购了Alacritus公司之后整合而成的最新产品线,据NetApp(中国)公司技术总监岑广海介绍,新的虚拟磁带库系统具有以下几大技术革新:

动态负载均衡 通常的方法是预先分配好磁盘空间,当备份时就会将数据固定地备份到某一磁带空间上,这样就使得规定位置的磁带空间会变成“热门”磁盘,而这部分磁盘就存在性能问题。而此次NearStore VTL首次在存储系统中采用自我调整技术,在数据负载发生变化时不间断地自动将备份流分配给可用性最高的磁盘,使整个数据流的分布不会在某些磁盘上形成瓶颈,变成一种动态性能,显著地提升了备份性能。磁盘连续写操作实现了大模块连续磁盘传输(NearStore VTL支持总计1000MB/s的写入吞吐量)。

磁带空间计算 一般的虚拟磁带压缩技术采用的方式是直接将数据进行压缩,然后再输出并压缩存储到物理磁带上,但是在通常情况下,由于VTL与物理磁带的压缩算法不同,因此在数据转移过程中就会产生误差,这样既有可能浪费磁带空间,同时也给今后的数据追踪带来麻烦。NearStore VTL系统采用了一种新颖的称为“Introduces Tape Smart Sizing(磁带空间智能计算)”的功能,这种计算功能能够在数据进入VTL时,对所有数据进行动态实时采样,计算出今后VTL输出到物理磁带上时所需的实际空间,经过精确计算,数据在实际物理硬件压缩时在空间介质上将不会产生任何消耗浪费。据估计,这种磁带优化功能将使企业用户在存储介质上至少可以节省50%的存储空间。

快速数据恢复 NearStore VTL利用联机磁盘的快速性和可靠性,极大地提高了恢复性能,消除了磁带库存在的机械延迟问题,通过磁带直通模式,使备份应用程序可以立即访问数据,从而加快了从物理磁带恢复的速度(NearStore VTL可支持总计1140MB/s的读取吞吐量)。在安全方面,NearStore VTL使用具有RAID保护功能的磁盘存储技术来防媒体出错,使用Journaled对象存储区(JOS)以自描述的模式将数据写入磁盘,即使出现最严重的系统错误以往提及信息管理或是数据管理时,通常是数据库、数据仓库提供商会提供更多的概念,而更偏重提供前端BI分析工具的BO涉足该领域,则预示着BI厂商逐渐走向“全能”。

近日,Business Objects(简称BO)公司宣布了其EPM(Enterprise Performance,企业绩效管理)和EIM(Enterprise Information Management,企业信息管理)战略,其中EIM是专门针对BI(Business Intelligence,商业智能)应用中的数据整合、数据源质量保证和总控数据管理的一个完整框架(如下图)。

图 EIM数据管理拓扑图

实时数据整合

在数据整合阶段,BO除了提供相应的ETL(抽取、转换和加载)工具之外,还提供EII(Enterprise Information Integration,企业信息集成)工具Data Federator。数据整合,顾名思义就是将来自不同数据源的数据整合在一起,以一个完整的视图提供给更为上层的BI进行分析。传统的数据整合是通过ETL工具将数据抽取、加载到数据仓库,从而将不同数据源的数据都聚集到数据仓库中,从物理位置看,所有这些数据也都是放在一起的。而BO所提出的EII能够实时地从不同数据源抽取数据,从而实现实时BI分析。实际上,它提供的是虚拟的通道,数据本身还是放在原来的数据源中。

实时、快速是EII最大的特点,之前利用数据仓库的数据整合方式,最快也是每天晚上加载当天数据,第二天可以使用的最新数据是前一天的。另一方面,数据仓库的容量总是有限的,不是所有表格都能够或是有必要存储在其中,当需要的表格在数据仓库中找不到时,EII恰恰能实时抽取需要的数据。

与其他一些厂商相比,BO之前的产品线更偏重前端BI分析工具的提供,而此次BO推出EIM战略,无疑拓展了它在后端数据整合阶段的实力,使自己逐渐成为全面的BI解决方案供应商。

为数据质量“筑”防火墙

实时数据整合因为经历的环节少,其中并没有专门确保数据质量的环节,因此BO在数据整合之上提出了数据质量防火墙的概念,为的是保证整合之后数据的质量能够达到一定的要求,从而增强企业做出决策所需信息的可信度。BO公司亚太区产品和解决方案市场经理Ian Parker在接受记者采访时表示,“数据整合不可避免地会暴露数据质量方面的问题”。BI应用是对数据进行整合、统计和分析,从而得出对业务有价值的分析结果。数据对BI来说是最初的源头,如果数据的质量无法保证,BI就成了无源之水。

在传统的以数据仓库为基础的BI项目中,确保数据质量的工作一般是由ETCL(数据的抽取、转换、清洗和加载)工具承担,但目前的ETCL工具大多集中在数据的抽取、转换和加载方面的功能,对数据质量的保证还有所欠缺。

与此同时,市场上确保数据质量的工具也比较少,Firstlogic应该算是数据质量解决方案和服务提供商中的佼佼者,可提供数据评估与度量、数据整理、匹配与合并、连续监测等能力,而BO公司近日将其收购,这就使得Firstlogic成为其EIM战略中的重要环节。(周蓉蓉)

当然,实时的EII工具并不能替代数据仓库,它是数据仓库更为有效的补充。数据仓库在数据整合方面的能力非常强,它和实时的EII数据整合分别适合不同的应用类型,而无论是对实时数据整合,还是对数据仓库数据整合来说,数据质量都非常重要。

上一篇:雾里看花又一年 下一篇:NetApp VTL:基于磁盘的数据管理