解密集群存储

时间:2022-10-16 08:16:31

近几年来,随着数据量的迅猛增长以及用户需求的不断提升,尤其是非结构化数据所占比例越来越高,使得传统存储系统已经不能满足所有用户的需求。面向文件级存储的集群存储系统得到了越来越广泛的关注,各大存储厂商分别推出了各自的集群存储产品。那么,究竟什么是集群存储?集群存储与传统架构相比又有哪些不同和优势呢?

目前市场上的集群存储产品还没有统一的业界标准,在这里,我们首先对集群存储做一个功能定义。所谓集群存储,是一种开放式的存储架构,其采用分布式操作系统,将多台物理存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池(也叫做统一命名空间)。这样,应用就可以通过该访问接口,非常容易地管理存储池后端物理存储设备上的所有磁盘,并充分发挥存储设备的性能和磁盘利用率; 数据也会按照一定的负载均衡策略,被从多台存储设备上存储和读取。

六大特点

从以上定义中我们可以看出,集群存储有六个关键特性。

1. 开放式架构(高扩展性)这是针对集群存储内部构成元素而言的。一般集群存储应该包括存储节点、前端网络、后端网络等三个构成元素,每个元素都可以很容易地采用最新技术而不用改变集群存储架构,且扩展起来很方便,就像搭积木一样。特别是对于那些对数据增长趋势较难预测的用户来说,可以先购买一部分存储,当再有需求时,随时添加,且不会影响现有存储的使用。

2. 分布式操作系统 这是集群存储的灵魂所在。所有对集群存储的操作都是由分布式操作系统统一调度和分发的,并分散到集群存储各个存储节点上完成。使用分布式操作系统的好处是各节点之间没有任何区别,也没有主次和功能上的区别,所有存储节点功能完全一致,这样才能做到性能最优。而且,在全分布的系统下,任何一个存储节点出现故障,对整个集群存储的影响都微乎其微,更不会产生大面积影响。

3. 统一命名空间 在集群存储中,统一命名空间强调的是在同一个文件系统下。因为如果是通过将若干有空间上限的卷挂载到某一个根目录的方式来达到统一命名空间,其效率以及出现存储热点时的性能将会大大低于把上PB级别的存储空间置于同一个文件系统下管理的统一命名空间。

4. 易管理性 目前,对存储的管理方式主要是通过管理工具或是通过Web界面进行管理和配置的,往往在客户端还需要安装相关软件才能访问到存储空间。而集群存储提供的是一种集中的、简便易用的管理方式,也就是说,对客户端没有任何影响,采用业界标准的访问协议(比如NFS,CIFS)访问集群存储。而且,随着集群存储容量的增加,客户不需要增加额外的管理人员,可以将精力更多地投向应用。

5. 负载均衡 集群存储通过分布式操作系统的作用,会在前端和后端都实现负载均衡。前端访问,通过几种负载均衡策略,可以将访问分散到集群存储的各个存储节点上,以减轻每个节点的负载; 后端访问,通过开放式的架构和后端网络,数据会分布在所有节点上进行存放和读取,每个读写操作有更多的磁盘参与,这可以提高读写操作的性能。

6. 高性能 在高性能领域,目前对集群存储的讨论还仅仅局限在高带宽、高并发访问的应用模式下。毫无疑问,集群存储对于该类应用可以提供比传统存储架构更优的性能。但除了高带宽、高并发访问之外,还有高IOPS、随机访问、小文件访问以及备份归档等其他类应用,集群存储应该在以上领域同样提供高性能解决方案。

高铁与火车

传统SAN与NAS分别提供的是数据块与文件两个不同级别的存储服务,而集群存储主要是面向文件级别存储服务的存储系统。据Gartner的统计,2008年,基于文件的存储系统容量的出货量以微弱的优势首次超过了基于块的存储系统容量的出货量。根据以上趋势,到2012年,基于文件的存储系统容量将占到总容量的70%,由此可以预测,集群存储市场在今明两年将会出现强劲增长。

集群存储的优势主要体现在提高并行或分区I/O的整体性能上,特别是对工作流、密集型以及大型文件的访问,通过采用更低成本的服务器来降低整体成本。

集群存储有两种实现方式:一种是在现有硬件基础架构上加上软件,典型的代表是SAN架构+并行文件系统,这种架构是一种折衷的解决办法,面向的是已经采用了大量SAN、NAS架构的存储用户,但在现有硬件架构之上加上并行文件系统,并不能跨越原有硬件架构的局限性,只不过是局部的改良而已; 另一种是专用集群存储,采用开放式架构,通过分布式操作系统实现集群存储,这是完全并行化的解决方案,从硬件到软件都实现了并行化。

传统的NAS架构与集群存储架构相比就像是传统火车与高铁。SAN系统具有很高的性能,但构建和维护起来很复杂,主要是因为数据块和网络需求使得SAN系统很难扩容; 而NAS系统的构建和维护虽然比较简单,但由于聚合设备(又称为NAS头)这一架构上的瓶颈,使得其性能很有限。NAS的这一特点非常类似于传统火车,能装的乘客数量(存储容量)完全取决于火车头的功率(机头的性能)。

而集群存储则集中了SAN和NAS架构的优点,且具备了SAN和NAS不具有的特点。在大多数使用集群存储的案例中,随着存储系统的扩容,性能也随之提升,这一特点与动车组类似,动车组能够装载的乘客数量(存储容量)基本没有上限,因为动车组的动力系统是完全分散在各个车厢的,只要站台(客户的机房)没有限制,客户数量就没有限制,因为车厢可以随需添加。

此外,集群存储和NAS的概念是在文件系统层面上的,而SAN是在LUN层面上的,当然,集群存储可以利用SAN环境实现。因此,集群存储与SAN解决的问题是不同的,如果一定要比较这两者的话,可以说,SAN实现了多个服务器节点可以同时看到SAN环境中的同一个LUN,而并不能实现多服务器节点间的文件级共享。

集群存储的适用领域

集群存储自进入存储市场以来,就一直面向高性能计算领域和并发数据读写领域。从其架构方面来看,非常适合以非结构化数据为主的应用,比如石油勘探开发、地震信号处理、图像处理、高性能计算、流媒体、音视频应用、航空航天、工业制造、CAD、CAM、CAE等相关领域。此外,它还比较适合做文件服务器。

目前,随着集群存储的发展,除了以上传统的应用领域外,高IOPS、随机读写、小文件为主的应用类型也可以适用,包括数据库、邮件系统等。此外,在备份归档领域,集群存储具有高扩展性和高性价比,因此也非常适用。使用集群存储的高扩展性,可以把主存、二级存储和备份归档存储更好地整合在一起,结合备份管理软件,可以实现分级式数据管理。

随着企业数据量的迅猛增长,数据中心也越来越庞大

上一篇:金融数据中心的备份之痒 下一篇:智能手机操作系统图形界面与人机交互设计