数据存储的浅析

时间:2022-10-06 01:50:21

数据存储的浅析

摘要:本文阐述了数据存储的定义、形式,分析了分级存储的优点和实现的难点,最后介绍了目前流行的存储平台构架和行业应用。

关键词:数据存储;在线存储;离线存储;近线存储;分级存储

中图分类号;TP309.3

文献标识码:B

文章编号:1002-2422(2010)06-0118-02

1 数据存储概述

1.1 数据存储的定义

数据存储就是根据不同的应用环境通过采取合理、安全、有效的方式将数据保存到某些介质上并能保证有效的访问,总的来讲可以包含两个方面的含义:一方面是数据临时或长期驻留的物理媒介:另一方面,是保证数据完整安全存放的方式或行为。存储就是把这两个方面结合起来,向用户提供一套数据存放解决方案。

1.2 数据存储的形式

1.2.1 在线存储

在线存储又称工作级的存储,存储设备和所存储的数据时刻保持“在线”状态,是可随意读取的,可满足计算平台对数据访问的速度要求。如PC机中常用的磁盘基本上都是采用这种存储形式的。

1.2.2 离线存储

离线存储主要是用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。离线海量存储的典型产品就是磁带或磁带库,价格相对低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把带子卷到头,再进行定位。当需要对已写入的数据进行修改时,所有的数据都需要全部进行改写。因此,离线海量存储的访问是慢速度、低效率的。

1.2.3 近线存储

所谓近线存储,就是指将那些并不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。对这些的设备要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但由于不常用的数据要占总数据量的大多数,这也就意味着近线存储设备首先要保证的是容量。

2 多种存储方式相结合的分级存储

2.1 分级存储的定义

所谓分级存储,就是根据数据不同的重要性、访问频次等指标分别存储在不同性能的存储设备上,采取不同的存储方式。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。

在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。

2.2 分级存储的优点

(1)减少总体存储成本。不经常访问的数据驻留在较低成本的存储器中,可综合发挥磁盘驱动器的性能优势与磁带的成本优势。

(2)性能优化。分级存储可使不同性价比的存储设备发挥最大的综合效益。

(3)改善数据可用性。分级存储把很少使用的历史数据迁移到辅助存储器中,或归档到离线存储池中,这样就无需反复保存,减少了存储的时间;同时提高了在线数据的可用性,使磁盘的可用空间维持在系统要求的水平上。

(4)数据迁移对应用透明。进行分级存储后,数据移动到另外的存储器时,应用程序不需要改变,使数据迁移对应用透明。

2.3 分级存储技术实现的难点

(1)如何判断数据是经常访问还是不经常访问。也就是说,系统自动判断的规则可能与用户的切身感受有所区别。用户可能认为某个文件需要经常用到,但是系统根据规则判断为不经常需要用到,而将其存放到性能低的硬盘中。从而用户反而感觉到访问速度的下降。其实现在市面上虽然有很多基于近线存储技术实现的存储设备,但是不同厂商的存储设备往往采用不同的算法来解决这个问题。如storagetek公司推出的近线存储产品,采用的是数据生命周期的算法。不同的算法往往会得到不同的结果。而每个企业可能情况不同,或者根据应用环境不同,需要采用不同的算法。这就要求企业的IT负责人有这方面的工作经验。能够根据企业的实际业务与应用软件,来判断采用哪种算法的近线存储产品更加适合。不过要做出这个合理的判断,对于企业要求比较高。通常情况下,企业IT负责人可能需要经过大量的测试才能够得出正确的结果。在考虑这个问题的时候,不要太在意个别用户的使用感受。只要大部分用户没有感觉到访问效率降低了就可以了。

(2)企业不知道在哪些情形下适合采用近线存储。虽然说近线存储在所有环境中都可以使用。因为根据20/80原则,总有一些数据是处于不怎么需要访问的状态。但是在实际工作中,企业并不是在任何应用环境中都可以从中带来收益。如对于视频监控系统,其数据存储量大,而且存储的数据除非有意外情况基本上不会使用。也就是说,99%以上的数据不会用到。此时虽然从近线存储产品中也可以带来一定的收益,但还是采用其他绿色存储方案为好。

(3)需要注意在项目部署的过程中存储设备的分配。在使用近线存储产品中至少要使用两块硬盘,分别用于存储这两类数据。一般来说,经常需要访问的数据需要存放在性能要求比较高的硬盘或者其他存储设备中。而由于这类数据的容量不会很大,为此对其存储容量没有很大的要求。性能越高,由此带来的访问速度的提升会越明显。而对于存放那些不怎么用到的数据,其最重要的一个参数就是存储容量。一般情况下,这个硬盘至少需要比另一块硬盘容量大4倍以上。

(4)近线存储设备往往还需要跟离线存储设备结合使用。因为近线存储设备中的数据也需要进行备份。从节省成本的角度出发,一般会为备份专门设置一个离线存储设备。在保证数据安全的前提下,从整体上降低存储系统能源的消耗。

3 目前流行的存储平台构架

流行的存储平台构架是三层的,第一层是在线存储,第二层是近线存储,第三层是离线海量存储,如图1所示。

在应用领域,除了解决备份和恢复的问题以外,近线存储还扩展到保护企业业务延续性、归档利用,混合存储管理以及资料库应用的范围。其优点在于:

(1)改善备份和恢复的策略。数据的备份不再直接备份到磁带,而是备份到近线存储。通过相应软件可以把在线存储上改动的数据块复制到近线存储上,而原来每天需要进行的备份到磁带上的工作可以改为每周甚至更长的一些时间进行。

(2)提高企业业务的延续性。企业的数据可以通过相应的软件构建起容灾系统,当灾难发生时,由于采用和磁带不一样的介质,恢复的速度会更快,有利于企业业务延续性的提高。

(3)归档利用和混合存储管理。像E-mail类型的应用,通常希望保留这些资料两年甚至五年,以备查询,而删除旧的Email会花费很多时间,因此,希望把旧的E-mail归档到近线存储上,这样既可以降低存储的投资,还可以当需要的时候直接访问。

(4)资料库的应用。像电子化图书馆、医院电子病例系统、地震勘探数据库等应用,许多数据是不经常访问的,仅当需要的时候才需要访问,这样就可以把这些数据放置在近线存储上。

4 结束语

企业要有效、经济对数据进行实现海量存储、高性能访问、高可用性、可管理性。可见数据存储的重要性日渐提高。

参考文献

[1]王达.网管员必读-服务器与数据存储.北京:电子工业出版社,2007-10

[2]张冬.大话存储-网络存储系统原理精解与最佳实践.北京:清华大学出版社,2008-11.

[3]王记奎.成就存储专家之路一存储从入门到精通.北京:清华大学出版社,2009-06.

[4]王改性,师鸣若.数据存储各份与灾难恢复.北京:电子工业出版社,2009-06.

[5]时成阁.网络存储系统设计.上海:华东师范大学出版社,2-007-02.

[6](美)萨曼达,(美)希瓦史塔瓦.信息存储与管理:数字信息的存储、管理和保护.北京:人民邮电出版社,2010-05.

[7]鲁士文.存储网络技术及应用.北京:清华大学出版社,2010-02.

上一篇:基于七层技术架构的出品退税管理系统设计 下一篇:多媒体教学中的教学方法