Sybase分析产品管理部总监Joydeep Das:数据库要专项专用

时间:2022-09-14 12:49:00

Sybase分析产品管理部总监Joydeep Das:数据库要专项专用

在OLTP(联机事务处理系统)应用中,人们普遍使用的是行式数据库。随着大数据和云计算时代的来临,列式数据库进入了人们的视线。在有效提升查询性能,把分析结果更快地提交给用户方面,列式数据库具有独特的优势。未来,行式数据库与列式数据库是和平共处,还是要经过一番拼杀,最终只能二择其一呢?

各展所长

在维基百科中,列式数据库是指数据以列相关存储架构进行存储的数据库,主要适合于大批量数据处理和即时查询。与此相对应,行式数据库是指数据以行相关存储架构进行空间分配的数据库,主要适合于小批量的数据处理,且常用于OLTP数据的处理。

“列式数据库与行式数据库之间并不是相互替代的关系,而是并存的关系。Sybase ASE就是传统的行式数据库,主要用于OLTP事务型应用。Sybase IQ是列式数据库,主要用于数据分析领域。此外,Sybase还拥有嵌入式产品,主要适合移动用户的应用。”SAP旗下的Sybase分析产品管理部总监Joydeep Das表示,“Sybase倡导的是数据库专项专用。传统的行式数据库技术并不是过时的技术。不同的技术、不同的产品可以解决用户不同的问题。”

Joydeep Das在数据库领域摸爬滚打了多年,亲身参与了Sybase IQ列式数据库的研发,既见证了行式数据库产品的辉煌,又亲历了Sybase IQ列式数据库的管理。Joydeep Das已经在Sybase工作了17年。Sybase ASE产品中有几项他的技术专利。他还是Sybase IQ列式数据库功能设计的关键人物。在Sybase内部,Joydeep Das被称为Sybase IQ列式数据库的“导演”。列式数据库已经成了Sybase大力投入的重点产品之一。Joydeep Das介绍说:“Sybase IQ列式数据库开发团队的规模已经扩大了一倍。Sybase针对Sybase IQ产品的市场投入也增加了一倍。”

Sybase最新推出的列式数据库Sybase IQ 15.3,再次点燃了用户对列式数据库的热情。曾参与Sybase IQ 15.3公测的comScore公司副总裁Scott Smith表示:“采用全共享MPP架构的Sybase IQ 15.3具有很高的查询性能,并允许更多服务器并行执行查询任务。”

数据库要专项专用,这一理念已经被数据库厂商普遍接受。Oracle Exadata与Oracle 11g数据库就针对不同的应用,IBM DB2与IBM Netezza也是互补关系。Gartner指出,今天,70%以上的企业级数据仓库产品实际上只能满足后台或少数部门的使用需求。从2010年开始,厂商纷纷加大力度开发新的数据仓库基础架构。

区别对待

行式数据库与列式数据库究竟有何不同?Joydeep Das从两个方面进行了比较:行式数据库通常重复进行行数据处理,而列式数据库的主要功能是进行数据查询;从性能指标看,行式数据库主要看重I/O吞吐量以及并行访问的能力,因此TPCC是其主要的性能衡量指标,而列式数据库侧重分析性能,其目标是以最快的速度将分析结果提交给用户,因此TPCH是其主要的性能衡量指标。

现在,用户普遍使用的关系型数据库管理系统的基础架构都是在上世纪80年代形成的。当时,计算机的价格高昂,而且速度较慢,因此数据库应用的驱动力主要来自减少CPU的占用,而忽视了I/O吞吐能力。如今,提高读取速度是列式数据库发展的新方向。但是列式数据库与行式数据库毕竟不同,如果用衡量行式数据库的随机读取性能指标来评价列式数据库是不恰当的。Joydeep Das打了个比方:“从山下往山上运送物资,汽车运输是一种方式,通过专用的索道运送货资是另一种方式。行式数据库好比是汽车运输,而列式数据库好比是索道运输。两种不同的方式不能用同一个指标进行衡量。”

在云计算时代,数据库必须解决两个方面的问题:第一,将数据快速吸收进来,形成数据库,Sybase的数据表加载、数据复制服务器等就可以加快数据入库的速度;第二,将数据库中的数据快速读出来,并进行分析,Sybase的CEP就可以在数据流动的过程中随时进行分析。

2009年,Sybase了Sybase IQ 15,主要提升了核心引擎的能力,包括数据加载和查询性能、改进的安全架构以及强大的集群管理能力等。这之后,Sybase又了Sybase IQ 15.1和Sybase IQ 15.2,每个版本都着力增强了高级分析功能,比如Sybase IQ 15.1新增了数据库内分析功能,Sybase IQ 15.2则进一步增强了分析支持功能,包括全文检索、联合查询以及Web分析功能。2011年,Sybase最新的Sybase IQ 15.3引入了大规模并行处理架构的PlexQ分布式查询平台,可将一个查询分解成多个部分,并将这些部分分布在多个服务器节点上,通过并行执行提高查询性能。

大数据带来新改变

IDC预测,未来5年内,列式数据库将成为数据库市场的主流。大数据时代的到来,加速了列式数据库的普及速度。

过去,数据库主要处理的是结构化数据,而在大数据时代,大量的数据是非结构化的。如何更有效地处理非结构化的数据,以及能否在一个平台上同时处理结构化和非结构化的数据对数据库厂商来说是一个严峻的挑战。为了解决非结构化数据处理这一难题,那些只具有结构化数据处理能力的数据库厂商开始大肆收购非结构化数据处理软件厂商,还有一些厂商选择与Hadoop进行合作。

非结构化数据的处理对Sybase来说不算是难事,因为Sybase的产品可以同时处理结构化和非构化的数据。Joydeep Das表示,对非结构化数据的处理并不是Sybase产品的新功能,但是对非结构化数据的搜索确实是新功能。

举例来说,保险公司对诈欺事件进行分析时,最基本的交易数据是结构化的,而为了更清楚地了解诈欺嫌疑人的信息,还要根据一些关键字进行匹配搜索,包括电子邮件信息、汇款信息等,然后再把所有结构化和非结构化的数据放在一起进行分析。此外,为了满足法规遵从的需要,用户也必须在一个完整的数据库中同时处理结构化和非结构化的数据。

Joydeep Das认为,有些应用适合采用Hadoop文件系统。采用Hadoop这种分散模式的分析产品,用户可以很顺利地找到农田里的“草堆”(分析结果);而采用Sybase IQ则可以找到草堆中的“针”(更精细的分析结果)。Sybase IQ具有深度分析功能,可以按照各种变化的条件快速找到用户所需的结果。“Hadoop与Sybase IQ是并存的,可以适合不同的应用。Sybase有计划将Hadoop的功能融入到Sybase IQ中。”Joydeep Das表示。

以Oracle Exadata为代表,业内现在流行软硬件一体化的解决方案。Joydeep Das表示:“软硬件一体化的解决方案只能满足某一种特定应用的需求。Sybase IQ可以支持所有硬件平台,具有中立性。”软硬件一体化的解决方案在国外通常被称为Appliance(固件)。Appliance在国外是指家用电器。由此可见,软硬件一体化解决方案的优势在于易用和部署方便,但缺点是功能单一,就像是洗衣机、冰箱一样,只具备一种功能。

Joydeep Das认为:“软硬件一体化的解决方案功能相对单一,而且扩展不灵活,适应性不强,无法满足企业动态的业务需求。不过,一体化的解决方案也有自己的生存空间。Sybase就与惠普公司合作推出了列式数据库固件。”

上一篇:双屏双触控或成平板电脑趋势 下一篇:用户青睐满足实际需求的数据库产品