公用存储:明天的存储

时间:2022-06-30 04:30:51

首先是存储虚拟化,然后就是公用存储――一种用于公用计算的简单、高效且可大规模扩展的分层存储方式。在公用计算和云计算逐渐拓展的背景下,公用存储正快步向我们走来。

首先是虚拟化,接下来是公用存储(utility storage)―当IT日益具有动态性,按需计算模式变得习以为常,这已经成为企业存储领域的发展远景。

存储虚拟化终于迎来了属于自己的时代: 服务器虚拟化取得了成功,加上早期采用者反映成效显著,这些都使得人们对存储虚拟化的兴趣日渐高涨。先行者们声称存储资源的利用率得到大幅提高,棘手的设备管理难题大大减少。在数据流量压力越来越大的情况下,这还能有效避免大把烧钱。

Drew Kreisa是威斯康星州丰迪拉克的娱乐推进发动机生产商Mercury Marine公司的存储管理员,他说: “我们后端系统上存储资源的利用率从40%提高到了85%以上; 有了虚拟化技术,我们就不必去购买远远超出实际需求的磁盘容量; 我们还实现了单点管理存储系统与主机之间的连接。”

不过,早期采用者也发现,存储虚拟化与公用存储这个理想目标之间还存在着巨大的差距,不可逾越的挑战似乎无处不在。由于一片混乱,数量众多的架构方案、不同厂商的产品彼此缺乏互操作性、面向虚拟环境的存储资源管理(SRM)工具差强人意,用户的预期目标因而显得扑朔迷离。IT主管们在等待行业理清头绪的同时,边享受存储虚拟化给自己带来的效益,边期盼宏伟的公用存储远景早日实现。

存储虚拟化热潮渐起

五年前Mercury Marine公司开始关注存储虚拟化方案时,选择还很有限。如今情况已经发生了很大变化。Kreisa说,现在为物理层的抽象构建架构的方案实在太多了,IT主管们应当慎重选择。

他说: “目前市场上一片混乱。太多的公司在提供全然不同的方法来构建网络架构,用户必须慎重行事,以免往网络上添加的新部件会妨碍你已经在开展的工作。”

从理论上来说,存储虚拟化可以为管理、备份、归档以及迁移集中起来的存储设备之间的数据减轻复杂性。有了这项技术,IT主管就没必要为物理设备方面的具体细节而操心。

选择正确的存储虚拟化方法至关重要。首先,公司必须确定自己希望存储虚拟化用在什么地方。比方说,公司可能会选择基于主机的系统,比如博科和赛门铁克等公司的这类系统。不过,随着这些环境日益庞大,它们需要自己的操作系统、主机虚拟化许可证以及维护和软件方面的开销。

公司也有可能使用专门设备(如IBM公司的SAN卷控制器),或者使用在交换机上运行的软件(如EMC公司的Invista),来部署存储虚拟化,作为光纤架构(fabric)的一部分。Taneja集团咨询公司的创办人Arun Taneja说,基于设备的方法眼下非常热门; 基于交换机的方法由于成本比较高,没有太大的吸引力。

如果公司决定采用基于光纤架构的策略,还要考虑准备采用带内、带外还是分离路径技术来实现虚拟化。带内产品(如DataCore软件、飞康软件和IBM等公司的产品)允许数据和控制信息在主机到控制器的直接路径上传输。如果使用带外解决方案(如LSI公司的产品),数据流与控制流是分开来传输的。

如果使用EMC公司采用的分离路径技术,智能交换机可以把控制命令重定向至外部控制器,允许读写I/O数据流从主机进入到适当的物理存储阵列。公司可以使用类似日立数据系统公司采用的方法,对存储环境进行虚拟化: 数据流从交换机进入到存储池的过程中,控制器为信息流赋予元数据。

最后一种方法用到阵列。惠普和3PAR等厂商的产品能让IT团队能够在服务器和存储系统之间建立虚拟的逻辑单元号(LUN)。

深入数据块

而另一个重要因素―公司想在数据块级进行虚拟化还是想在文件级进行虚拟化也很关键,因为正如Kreisa指出的那样,两者之间的整合非常少。作为数据整合项目的一部分,Mercury Marine公司部署了IBM公司的SAN卷控制器,实现了数据块级的虚拟化,Kreisa担任总设计师。数据块级方案首先迅速缓解了Mercury面临的几个主要压力: 难于管理及扩增存储卷、控制器上缺少空间、需要备份及恢复流程以实现适当的技术更新; 存储容量有限,满足不了发展的需要等等。

Scott Christiansen是内布拉斯加州奥马哈的国际建筑工程公司Leo A. Daly的首席安全官,他在决定整合来自该公司在全球10个办事处的数据时,选择了另一条路。网络附加存储设备使用寿命到期后,他用戴尔的EqualLogic虚拟化存储阵列取代了这些设备,这些存储阵列连接到了每个办事处的思科千兆交换机。这样一来,他就能像管理单一资产那样来管理存储池。现在,如果用户需要存储空间来存放庞大的AutoCAD和三维建模文件,众多资源可供他利用。

Christiansen使用了戴尔产品的内置功能: 自动精简配置(thin provisioning)来自动分配网络上的资源。有了自动精简配置功能,只有应用程序把数据写入到磁盘上时,才需要保留存储容量,从而以最少成本保证了资源得到最大限度的利用。

Taneja说: “过去,如果某个应用程序需要10 GB的存储空间,数据库管理员就会要求40 GB; 存储管理员就会提供100 GB,因为他希望数据库管理员好几个月不再麻烦自己。这100 GB是专门供该应用程序使用的,其他应用程序没法使用。”而自动精简配置让Christiansen 之类的IT主管可以合理规划存储容量的利用率。

弗雷斯特研究公司的高级分析师Andrew Reichman说,自动精简配置还能节省费用,因为它有助于避免如今的存储系统势必会出现的功率损耗。他说: “普通的资源配置会使磁盘一直旋转,从而消耗电力、产生热量。”

多亏了自动精简配置,Christiansen得以更有效地利用数据存储空间; 而且由于能够致力于整批数据而不是单个存储区,极大地节省了技术成本和管理时间。

Christiansen说,集中起来的存储资源还增强了容错功能,这有助于灾难恢复和电子证体系计划。他说: “如今存储是比较让我省心的一个方面。即便某个地方出了什么故障,我们也很容易在另一个地方重新运作起来,这种操作对用户来说是透明的。”

Michael Schaffer是位于加州埃默里维尔的在线图书、音乐和视频交换平台Alibris公司的首席技术官,他高度评价了3PAR托管存储阵列给他带来的容错功能,这些存储阵列与他的网络设备一起放在萨克拉门托的服务中心。

存储虚拟化技术有助于支持他那10万家厂商组成的全球网络每天对库存数据库所作的500万次更改。数据库的庞大规模和客户流失率势必需要庞大、动态的高性能存储系统。Schaffer说: “库存数据库是我们公司的立足之本―它既给我们带来了技术挑战,也带来了竞争优势。”

如今,Schaffer可以轻松为一个主机分配100 GB空间,为另一个主机分配1 TB空间,而不必担心设备级的具体细节。他说:“我不知道涉及了哪些驱动器,对此也不用特别关心。”

Schaffer说,3PAR系统结合了高级技术附件(ATA)驱动器和快速光纤通道驱动器,可以在诸多存储层之间自动移动数据。“我可以把数据从光纤通道移到近线存储或者从RAID 5磁盘组移到RAID 10磁盘组,没有停机时间。”他补充说,这一切不需要详尽规划和LUN分割即可实现。

重复数据删除是存储虚拟化的另一个热门分支,因为它能够节省空间,所以也出现在了Schaffer的技术清单上。重复数据删除可清除类似的数据块,并用散列标记取而代之; 这个过程带来了诸多好处,比如延长了归档内容在磁盘上的存储时间、提供了更好的备份性能。不过弗雷斯特研究公司的Reichman说,这项技术需要企业的IT经理们考虑存储的方式出现根本上的变化。他说: “多年来,人们用多个数据副本来确保数据的保护和可用性。现在钟摆向另一端摆动,即减少物理副本,从而整体上减少占用空间。”

专家们说,企业的IT经理们可以采用物理存储使用的一项流行技术―快照来简化虚拟化。企业战略集团(ESG)的分析师Mark Peters说: “虽然快照经常被人忽视,却是一项很好的功能,有助于简化虚拟备份、能够迁移数据,还适用于开发团队。开发团队在不断测试过程中可能会带来无数相同的生产数据副本。”

不利因素

IT主管们正在寻找哪家厂商的存储虚拟化方案是成功的,但他们承认: 厂商之间缺乏互操作性及其他问题仍在阻碍他们在公用存储方面的尝试。

互操作性(或者说缺乏互操作性)最近成了Mercury的最新存储虚拟化计划的考虑要素。该公司计划部署文件系统虚拟化技术,旨在通过分布在网络上的服务器减少存储入口点的数量。为了避免可能出现的支持问题,Mercury再度倾向于IBM实施的来自网件公司的文件虚拟化技术。

Kreisa说: “就算另一款产品的功能很相近,我们也要从互操作性的角度来考虑自己的决定。”

正是由于互操作性方面的这种既成事实,Nemertes研究集团的研究分析师Ted Ritter才对公用存储很快会到来的可能性持悲观态度。他说: “如果说虚拟化的应用范围很有限,是由于你被某家厂商牢牢束缚,那么你根本无法企及公用存储这个理想目标。”

支持基本光纤通道协议的功能在这方面没太大的意义。他补充说,管理存储设备、进行镜像和移动副本之类的操作在不同厂商之间始终是不兼容的。

弗雷斯特公司的Reichman对此表示赞同。他说: “现在,如果一家厂商的存储设备放在另一家厂商的虚拟化控制台后面,通过诊断来解决问题非常困难。随之会出现相互指责的情况。如果让虚拟化和物理存储基础设施更加标准化,这个问题有望得到解决。”

SRM为搜集不同资源的信息提供了手段,它也会得益于标准化。SRM的问题在于,无法横跨多家厂商的虚拟化环境进行工作。这对试图解决性能问题的IT团队带来了严峻挑战。ESG的Peters说: “你需要更深入的SRM整合,才能查明应用性能问题的根源,找出哪些磁盘是瓶颈。”

Nemertes的Ritter补充说,SRM工具与虚拟化环境一起使用,这给法规遵从带来了障碍。如果一家公司结合使用虚拟化与存储资源和路径管理工具,“就无法了解到底有哪些应用数据位于哪些特定的磁盘上”。

这对受制于政府和私营部门法规的机构来说是个问题。他说: “如果你因为病人记录经过虚拟化处理而无法告知这些记录放在什么地方,你就没有遵从《健康保险可携性及责任性法案》,需要交待数据的下落,这是最基本的。”

物理层的抽象也会影响到灾难恢复和业务连续性方面的工作。弗雷斯特公司的Reichman说: “如果你把物理连接移到某一部分数据所在的地方,并且采用了虚拟化技术,虚拟化会重新映射数据位置、把数据分成几个部分、骗过服务器等,最后要靠元数据和虚拟化机制来保留对关键数据的访问。”

Reichman建议,为了对付这个问题,IT团队应当制定政策,规定哪些数据可以存放在何处; 还应当利用监控技术,对这些数据实行能够识别虚拟化的审查。

自动精简配置也许能起到很大的帮助,不过它会给IT主管们带来虚假的安全感。Nemertes的Ritter提醒,这可能会带来灾难。他说: “可能会出现为存储网络配置资源不足的情况,从而无法应对系统故障。”

就在等虚拟化行业的这些发展初期困难渐渐消失的同时,Mercury及其他公司在继续憧憬公用存储的未来。Kreisa说: “要实现公用存储这个目标,我们就得有一个环境,操作系统、文件系统和数据块级之间完全整合的环境。这样一来,应用程序需要更多的存储资源时,虚拟化环境就会自动增加资源,并向服务器发回消息。这是最后阶段,这仍不失为是一条出路。”

链接

公用计算、云计算和公用存储

公用计算可以让IT组织通过服务器和存储虚拟化来提供服务化软件(Software as a Service)和服务化硬件(Hardware as a Service)。在公用计算平台上,企业可实现公用服务、云计算和新一代的基于服务导向架构的应用。

概括来讲,公用存储是用于公用计算的一种简单、高效且可大规模扩展的分层存储方式。它与服务器虚拟技术一起,构建了一个完整的公用计算环境。

最早的直连式存储,不仅耦合紧密,而且重构困难; 之后出现的网络存储,消除了耦合、更加灵活,有SAN和NAS两种方式,也解决了容量的需求,但仍没有解决管理问题。当发展到公用计算,不仅能解决管理问题,而且响应速度非常快,企业可以最有效地利用其存储资源。

从概念上来讲,云计算是外部B2B或B2C服务供应商在互联网上提供的服务化企业IT。云计算是通过超链接分发的服务化软件或服务化硬件。它是基于因特网的分发系统,由此方式而得出“云计算”这一名词。

为了有效支持云计算,基础架构必须支持几个关键特征。首先,这些系统必须是自治的,也就是说,它们必须内嵌有自动化技术,消除人工部署和管理任务,允许平台自己智能地响应应用的要求。如果系统需要人为干预来分配和管理资源,那么它就不能充分地解决云计算的要求。其次,云计算架构必须是敏捷的,能够对需求信号或变化的工作负载做出迅疾的反应。换句话说,内嵌的虚拟化技术和集群化技术,能应付增长或服务级要求的快速变化。如果系统需要花几个小时、几天或几个星期的时间来响应新的应用或用户需求,那么这个系统也就不能满足云计算的要求了。

云计算所需的基础产品平台包括服务器虚拟、内嵌有存储虚拟化技术的公用存储、刀片服务器平台。与这些平台相关的技术包括内部虚拟化、集群化和自动化等。

上一篇:构造服务是SOA的基础 下一篇:应对数据爆增带来的存储难题