大数据量“高效存储”新技术探析

时间:2022-09-16 08:49:57

大数据量“高效存储”新技术探析

The Technology Analysis of Large Amount of Data "Efficient Storage"

Feng Kaiping

(Sichuan Higher Institute of Cuisine,Chengdu 610072,China)

摘要:面对数据量的急剧暴涨,企业需要不断购置大量的存储设备来应对不断增长的存储需求;大量的异构物理存储资源大大增加了存储管理的复杂性、成本和能耗,造成存储资源浪费。最新的“高效存储”理念旨在缓解存储系统的空间增长问题、缩减数据占用空间、简化存储管理、最大程度地利用已有资源,降低成本和能耗。

Abstract: As the amount of data jumped sharply, the enterprise needs to constantly purchase large amounts of storage equipment to cope with growing storage needs; a lot of heterogeneous physical storage resources greatly increased the complexity, cost and energy consumption of the storage management, which caused storage resources waste. The latest "efficient storage" concept is aimed at easing the space growth of storage system, shrinking the space that data takes up, simplifying storage management, maximum using existing resources, and reducing cost and energy consumption.

关键词:高效 存储 数据 效率

Key words: efficient;storage;data;efficiency

中图分类号:TP391文献标识码:A文章编号:1006-4311(2011)19-0143-02

0引言

信息在带来价值和财富的同时,也给我们带来了许多挑战,诸如存储空间巨大、管理复杂、存储利用率低下、能源消耗巨大等问题。为了提高数据存储数量和效率,人们提出了很多提高存储效率的方案和方法。新概念的高效存储技术数据压缩、重复数据删除、自动精简配置、自动分层存储、存储虚拟化等技术有效解决或缓解了这些难题。

1当前数据存储应用的不足

容量效率――容量效率低是极其常见的现象,在许多中小型企业或高校等应用IT的环境下,存储系统资源相互独立,往往造成存储系统的利用率不均衡,有的存储设备已经饱和,而很多存储设备的存储利用率却不到30%。

人员管理效率――在传统存储模式下,每个应用都有自己的存储系统,每个存储系统都有自己的管理界面,都需要管理员来维护,这些管理的成本随着存储器数量的增多而急剧增加。

IT系统的生产效率――前两个问题必然会造成整个IT系统生产效率的下降。一方面是性能和稳定性的问题,使得业务不能够正常运营;另一方面是系统定期维护造成的定时停机,比较典型的如数据调整、设备更换、数据迁移等都会使整个业务系统停止。

2“高效存储”策略

高效存储技术主要基于以下策略:①减少冗余数据副本,减缓数据增长率;根据数据价值和SLA定制数据管理和保护策略,降低总成本。②将分散物理存储资源整合成虚拟的存储资源池,使得存储利用率最大化,减缓存储需求。③有效减小数据通信量和存储量。删除块级和文件级冗余数据、自动精减配置、在满足存储需求的同时按需分配存储、根据需要动态调整数据卷大小,使得存储量最小化。④根据数据价值和访问频度自动在不同存储层次之间流动,降低成本。⑤高效利用SSD的高性能、低能耗的特点,提高设备数据存储量。⑥减少测试、仿真、建模等应用的存储空间需求。⑦将空闲磁盘转换成非活动或低速旋转模式,可有效节省能耗。

以上所列高效存储技术和管理策略均是最佳实践,但是单一技术往往难以显著地提高存储利用效率、降低能耗、降低成本,实际中通常综合运用其中多种技术以获得更佳的整体效果。

3“高效存储”技术

基于高效存储策略,目前IT界公认的五项高效存储技术分别是数据压缩、重复数据删除、自动精简配置、自动分层存储和存储虚拟化。3.1 数据压缩数据压缩技术是提高数据存储效率最古老最有效的方法之一。数据压缩就是将收到的数据通过存储算法存储到更小的空间中去。随着CPU处理能力的大幅提高,在主存中应用实时压缩技术来节省数据占用空间成为现实。这项新技术就是最新研发出的在线压缩(实时压缩,RACE)技术,它使得数据压缩技术发生了极大的改变,它具有更快捷更准确的活跃数据判断能力和缩减能力,从而大幅度地降低文件和数据库的占用空间。借助实时压缩技术,在不降低性能要求的情况下,将存储需求最多可降低80%。与传统压缩技术不同,对RACE技术,当主数据在首次写入时即被压缩,帮助系统控制大量数据在主存中杂乱无章地存储的情形,特别是多任务工作时更加明显。进而降低了功耗、减少了冷却要求,也使得CPU工作更轻松。该技术还可以在数据写入到存储系统前压缩数据,这进一步提高了存储系统中的磁盘和缓存的性能和效率。RACE是一个软硬件组合的技术产品,本身可以看作一个压缩器,透明地部署在数据流中,整个数据会流经它,再存储到服务器中。

3.2 重复数据删除备份设备中总是充斥着大量的重复数据。“重复删除”技术(Deduplication)作为一种数据缩减技术可对存储容量进行优化。它通过删除数据集中重复的数据,只保留其中一份,如图1所示,从而消除冗余数据。Dedupe技术可以将数据缩减到原来的1/20-1/50。由于大幅度减少了对物理存储空间的需求,进而减少传输过程中的网络带宽、节约设备成本、降低能耗。

Dedupe按照消重的粒度可以分为文件级和数据块级。文件级的dedupe技术也称为单一实例存储(SIS,Single instance Store),数据块级的重复数据删除,其消重粒度更小,可以达到4-24KB之间。显而易见,数据块级可以提供更高的数据消重率,因此目前主流的dedupe产品都是数据块级的。Dedupe将文件变成定长或变长的数据块,采用MD5/SHA1等Hash(散列)算法为数据块计算指纹(FP,Fingerprint)。可以同时使用两种以上hash算法计算数据指纹,以获得非常小的数据碰撞发生概率。具有相同指纹的数据块即可认为是相同的数据块,存储系统中仅需要保留一份。这样,一个物理文件在存储系统就只对应一个逻辑表示。

3.3 自动精简配置自动精简配置(Thin Provisioning)是一种全新的存储空间管理技术。在传统存储空间分配过程中,系统往往预先给某个应用分配足够大的空间,实际使用容量仅占其20%-30%,这是一种很大的浪费。自动精简配置技术是利用虚拟化方法减少物理存储部署,最大限度提升存储空间利用率。它的核心原理是“欺骗”操作系统,其假象就是存储空间足够大,而实际物理存储空间并没有那么大。自动精简配置减少已分配但未使用的存储容量的浪费,用户需要多少存储空间系统则按需分配。自动精简配置是解决存储过量供给的最有效的方式。它不会一次性地划分过大的空间给某项应用,而是通过块或块组将资源写入特定卷。当该项应用所产生的数据增长、分配的容量空间已不够的时候,系统会两次从后端存储池中补充分配一部分存储空间。因此自动精简配置技术优化了存储利用,扩展了存储管理功能,虽然实际分配的物理容量小,但可以为操作系统提供超大容量的虚拟存储空间。随着应用写入的数据越来越多,实际存储空间也可以及时扩展,无需手动。利用自动精简配置技术,能够帮助用户在不降低性能的情况下,大幅度提高存储空间利用效率;需求变化时,无需更改存储容量设置;通过虚拟化技术集成存储,减少超量配置,降低总功耗。(如图2)

3.4 自动分层存储自动分层存储(Automated Tiered Storage,ATS)技术由来已久,但过去进行数据移动主要依靠手工操作,由管理员来判断这个卷的数据访问压力或大或小,迁移的时候也只能一个整卷一起迁移。赋予它新技术特点的则是其分层的自动化和智能化。

数据从它诞生之时起,信息的价值和受访概率将不断降低,对于价值高受访度高的数据即活跃数据,存储在性能好、速度快、可靠性高的存储设备上,如光纤磁盘、SSD磁盘;反之则将其存放在相对性能较差的存储设备上。以此来降低硬件成本。SSD的出现使得分层技术更加有必要,它能使一个两层甚至三层的存储系统享有SSD级的性能。

如何对活跃数据进行识别,一种是基于策略的方式,如FAST2技术,它属于块级迁移,可以根据I/O模式将数据迁移到最适宜的存储层中,以获得最佳存储性能;另一种如Easy Tier方案,属于子卷级自动分层存储,该方案能够把一个大的逻辑卷划分成为很多小的子卷(系统默认大小为1GB),并判断这些小的子卷,访问频次过高,属于“热点子卷”,迁移到SSD等性能更好的磁盘上去。而子卷访问频次较低的,保留在现有磁盘上,或者迁移到性能一般的磁盘上去,例如SATA磁盘,而这些操作完全是自动化的。

3.5 存储虚拟化随着存储需求的激增,物理存储设备(如服务器、磁盘陈列、网络设备等)也随之大增。这种分散的异构存储资源最终使管理变得异常困难,致使存储资源不能被充分利用,其存储利用率不到50%。解决此问题的方法之一就是存储虚拟化。存储虚拟化将分散的存储资源整合抽象成一个单一的逻辑资源,使得管理员仅对一个单一的存储资源进行识别和管理,如图4。虚拟化将存储资源的物理特性掩盖起来,用户感觉到的存储资源是一个巨大的流水式的“存储池”,该池中的水可以自由调配。这样用户不再关心存储资源的物理结构,简化了管理过程。它可以最大化存储利用率,减缓存储需求。

4后记

数据压缩、重复数据删除、自动精简配置、自动分层存储和存储虚拟化五种高效数据存储方案很大程度上缓解了数据存储压力,如果综合运用多种技术,可以获得最佳的数据存储效率。

参考文献:

[1]顾瑜,刘川意等.带重复数据删除的大规模存储系统可靠性保证[J].清华大学学报,2010,(5).

[2]陈昌主,陈小松.数据压缩算法研究与设计[J].电脑与信息技术,2010.(6).

[3]邱红飞.存储的自动精简配置技术应用研究[J].电信科学,2010,(11).

[4]刘爱贵.重复数据删除技术研究[D].北京:IBM Aix专家俱乐部,2010,(11).

[5]刘伟.数据恢复技术深度揭秘[M].北京:电子工业出版社,2010,(5).

[6]王树鹏.重复数据删除技术的发展及应用[J].中兴通讯技术,2010,5.

[7]马林.数据重现-文件系统原理精解与数据恢复最佳实践[M].北京:清华大学出版社,2009,4.

[8]王淑江,刘晓辉.网络存储-数据备份与还原[M].北京:电子工业出版社,2010,8.

上一篇:独立深水大桥的概算编制 下一篇:医学图像分割方法研究