集群式存储在高校数据管理的应用

时间:2022-08-17 12:50:46

集群式存储在高校数据管理的应用

【摘要】文章介绍了高校信息中心在数据存储方面的现状和集群存储的一些特点,对在高校部署集群式存储系统做了简要的论述,并且总结了部署集群式存储系统所带来的意义。

【关键词】存储;高校;共享;安全

【中图分类号】G40-057 【文献标识码】A 【论文编号】1009—8097(2013)06—0120—03

一 引言

随着教育行业信息化建设的不断深入和完善,学校教学、科研、管理等工作的正常运行越来越依赖于网络信息平台。目前很多高校的数据中心仍然采用很多年前的数据处理方式,将前端应用程序、数据库、资源库全部放在服务器本地硬盘中,虽然现阶段基本可以满足要求,但也存在很多弊端。如:没有备份恢复系统、服务器的硬盘空间没有统一的规划,使用分布不均,造成空间浪费、数据无法在各种版本的操作系统间实现简单快速的共享等。随着学校各种业务数据的不断增加,现有架构的不足将日益凸现出来。因此,建立可靠、安全、便于检索、快速共享的集群式存储系统已经变得势在必行。

二 高校信息中心数据存储的现状

1 几乎没有集中的存储设备,数据丢失风险大

重要的教学资源、学生信息、财务数据均存放在服务器本地硬盘或者Raid硬盘组当中,缺乏相应的保护措施、相应的专业数据管理人员。大大加重了数据丢失的风险。

2 存储空间浪费严重,数据无法安全简单共享

数据分散存储在各个服务器中,服务器硬盘空间无法统筹规划,形成一个一个的信息孤岛,空间使用分布不均,严重浪费。

不同的主机间所拥有的存储区域不可能交叉访问,传统文件服务器基于单一操作系统,故不可能实现真正实现异构操作系统如Linux和Windows数据的共享。而Linux和Windows之间的互访则只能通过购买第三方软件来实现,并且保证不了应有的文件访问权限。

3 没有真正的备份恢复保护系统

服务器的数据很容易因为误删除,病毒感染,硬盘设备坏等原因丢失。没有专业的备份系统可以恢复数据。

4整体拥有成本不合理

传统架构下,服务器的平均资源利用率并不高,造成很多CPU、内存、电力、制冷、机架空间等资源的浪费,增加了不必要的开销,整体拥有成本不合理。

三 集群式存储

1 集群式存储发展的背景

传统的存储已经不能满足于当下信息的爆炸式发展。面对日益臃肿和复杂的数据,一旦遇到存储系统的瓶颈,就不得不升级到更大的存储系统和添加更多的管理工具,从而浪费了社会资源,加深了数据管理的难度。而采用集群存储则可以提供按比例增加的服务器或存储资源的性能、容量、可靠性及可用性,突破了单机设备的种种限制,带来更高的可用性、稳定性,以及更低的成本。

2 什么是集群式存储

集群存储就是将多台存储设备中的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池,应用可以通过该访问接口透明地访问和利用所有存储设备上的磁盘,可以充分发挥存储设备的性能和磁盘利用率。数据将会按照一定的规则从多台存储设备上存储和读取,以获得更高的并发访问性能。

3 集群式存储的功能

(1)海量数据高效管理

随着资料处理业务的增多,存储系统中将积累大量的数据,这就需要存储系统能够容纳海量的数据。同时,存储系统里面的文件数量也会快速增长,当文件数量增长到数千万以上时,文件的检索查找等操作将会给文件系统带来巨大的压力,特别是一个目录下面存放的文件超过一定数量甚至会造成文件查找效率急剧下降。集群存储系统单卷可支持PB级的存储空间,高效的管理上百亿个文件,单目录可以高效支持千万级的文件数量。集群存储系统拥有高效的多元数据服务器集群技术和高效的海量文件检索技术,在存放上百亿文件的同时保持极高的文件检索效率。集群存储系统能够在单个目录下高效管理上千万个文件的存储系统,在单目录下存放上千万数量文件时,仍然能够提供每秒数万的文件检索效率。

(2)数据读写性能

集群存储系统通过多台存储服务器提供同时数据存取服务的方法以满足大量应用服务器的并发访问需求。在应用服务器端,当应用程序往存储系统上写文件时,文件将会被根据一定大小进行分片存放到多台存储服务器上;在应用程序读文件时,则并发的从多个服务器上读取数据。由于大量的数据IO请求都被分散到多台存储服务器上,使得所有的存储服务器上的磁盘性能和网络带宽都可以同时得到充分的利用,这样集群存储系统的聚合带宽由多台的存储服务器上的10带宽相加而成,从而克服了单一出口点所造成的性能瓶颈,可以满足多台应用节点并发访问的带宽需求。通过实现多存储服务器的并发数据访问支持,消除了传统存储方案中常见的负载不均导致的热点数据问题。通过数据在存储服务器集群中的条带化分布实现高效、全面的负载均衡功能,充分利用硬件和网络的性能,发挥出最高IO吞吐量。

(3)数据全局共享

大规模集群存储系统采用文件系统全局命名空间,所有计算节点都可看到一致文件系统视图。数据的全局共享可以加强各计算节点之间的协作,提高了作业的运行效率。而且数据的统一管理也方便用户数据的统一管理,并简化应用系统的开发。

(4)数据安全性

基于数据安全性方面的考虑,用户可以通过配置工具设置数据相应的安全等级,选择将数据和校验数据分别存放在不同的存储服务器上。集群存储系统可以同时使用多条高速数据通道,可消除网络层的单点故障,进一步提高系统的高可用性。在这样的情况下,即使出现存储服务器宕机、网络中断、磁盘损坏时,仍然能够保障数据完整性和数据服务的持续运行。例如,在运行中存储服务器由于磁盘损坏而丢失了该磁盘上的部分数据,集群存储系统将会立刻发现该异常并自发的启动数据恢复流程,利用存放于其它存储服务器中该部分数据的校验数据重新生成一份以保证数据仍有一定的冗余度。由于数据恢复是基于真实丢失的数据,并且数据恢复是通过整个存储集群同时并发进行,所以相对于传统的RAID技术具备更快的数据重建速度,这也能够有效提升数据的安全性。通过将数据和校验数据存放在不同存储服务器的方法可以对一系列的软硬件故障(网络、主机、磁盘等)进行自动的隔离,消除了存储系统的任何单点故障,而且也无需配置任何复杂的配置。

4 集群式存储的优势

集群存储的优势主要体现在提高并行或分区I/O的整体性能,特别是工作流、读密集型以及大型文件的访问,通过采用更高性价比的通用硬件来控制整体成本。目前,能源行业、广电行业和科学计算、互联网等领域的很多创新企业成了集群存储市场上首批用户,并且从集群存储带来的种种优势中获得了非常高的投资回报率。

四 在高校部署集群式存储的可行性和带来的意义

1 在高校部署集群式存储的可行性

(1)集群式存储系统和现有环境无缝兼容

存储系统的设计是面向通用的硬件和软件环境,如使用通用的以太网络作为数据传输通道可以确保充分利用现有的环境,并且可以无需对环境做出任何修改。另外能够直接支持Linux、Windows、Mac等常用的操作系统之间进行数据共享,无需对操作系统做任何修改,所以能够无缝的接入到高校现有的软硬件环境。

(2)系统化的可扩展性

集群存储系统可以支持动态的扩展存储容量,而无需中断应用的运行。用户可以通过配置工具动态添加存储服务器以扩大系统的容量和规模,而且随着存储服务器数据的增多,整套系统的聚合带宽也会线性的增长,完全可以满足业务不断发展所产生的容量和性能需求。而工业标准的通用硬件良好的兼容性和可获得性方便了整套存储系统将来的使用和扩展。

(3)系统的整体拥有成本低

考虑到教育机构不是直接生产单位,不产生直接的效益。因此,考虑系统的整体成本是必要的。由于集群式存储系统的动态可扩展技术,使得用户可以按需扩展存储容量,无需一次性投入大量成本来构建存储系统,有效降低了用户投资的风险。

(4)另外,集群式存储系统将所有的存储设备聚合成单一的存储池,提供给所有的前端应用服务器集群共享访问,克服了使用单一设备时所出现的存储设备利用率不均衡的情况。

2 部署集群式存储所带来的意义

(1)数据的充分共享

校园网中的数据可以被前端的各种类型的主机共享,无需在Linux和Windows、Mac系统之间进行数据迁移。这允许一个数据拷贝被所有人员与进程共享,大大减少了对不同环境下相同的数据的多种形式的管理费用。

(2)安全应用隔离

存储系统可以将不同的应用在逻辑上进行隔离,校园网中不同应用之间的存储内容相互独立,有效降低人为因素造成的数据损坏,大幅度提升了存储内容的安全性和数据的完整性。

(3)更低的存储架构规划成本

存储系统可与用户的现有应用环境无缝连接,便捷地加入到用户的应用环境中,并即时对外提供存储服务。无需像传统存储系统一样对大量复杂的硬件设备进行长期的分析、规划和配置,大大节约了前期的规划成本,极大提高了存储系统部署的效率。

(4)集群式存储系统采用图形化管理工具,极大简化了对系统使用的复杂度,减短了对管理员的培训时间。

(5)提高应用服务器之间的协作效率

存储系统对外提供单一的系统映像,所有的应用服务器都看到相同的文件视图。集中的数据共享存储,方便用户各业务部门之间进行数据协同处理,极大提高了各个部门间的整体效率。

(6)快速的故障恢复

集群式存储系统高效的自动数据恢复技术,使得故障恢复时间是通用RAID技术的五分之一,恢复过程不影响相应业务的运行,保证业务的连续性。

五 总结

数据存储是数据中心的基础,是一切服务的保障,保证数据的正确、完整性至关重要。高校应深化对数据存储重要性的认识,在经费保障的基础上,实现逐步调整,实现数据的高效存储。

上一篇:第十三个头骨(大结局) 下一篇:面向信息时代的教师培训课程开发