适宜网站媒体行业的存储系统

时间:2022-08-09 09:00:17

适宜网站媒体行业的存储系统

近十年来,基于磁盘的存储技术取得了长足的进步。企业级存储所使用的磁盘,从SCSI磁盘到Fibre Channel磁盘,单盘容量不断扩大,目前常用的从几十GB到几百GB种类繁多。随着ATA磁盘进入企业级存储应用,又在所谓在线(Online)存储和离线(Offline)存储之间出现了所谓近线(Near-line)存储的概念。串行ATA(SATA)和串行SCSI(SAS)磁盘技术的逐渐成熟,使得分级存储模式和信息生命期管理也日益得到普及。NAS、FCSAN以及iSCSI等不同存储模式广泛应用,更使得用户往往不知所措。

网站媒体行业的主要数据处理对象是文件,包括音、视频文件;HTML的网页应用以及电子邮件应用,经常面对的是千百万个并发访问,而每个访问的数据文件却不大,往往只有几K字节,出现所谓小文件大目录的情况,但数据存储的总容量要求很大;不同内容的访问频度差别也比较大,热门内容在某特定时间的并发访问量往往很大。有时播出部门在播出某个音、视频文件前,要求对文件做一些临时性修改,然后播出,同时又要求对原文件不做任何修改。这些特点对存储系统的模式和结构都提出了特别要求。

常用的存储模式与结构

以NAS为主,NAS和SAN一体化的存储。大目录小文件的数据处理对象是文件。音、视频文件的共同特点是单个文件很大,在存储系统中不宜大量复制。为了满足大量不同操作系统的服务器共享,最好采用NAS存储模式。而对于大量音、视频文件的查找,人们习惯采用数据库技术来处理其文件目录。目录数据库和客户数据库的数据存储容量通常不会非常巨大,这两种数据库的存储模式可以采用FCSAN、iSCSI或NAS几种模式;如果数据库比较大,最终用户的技术力量很强,则可以选择FCSAN模式;如果最终用户的技术力量有限,目录数据库和客户数据库又不是非常大,则可以采用iSCSI或NAS模式。

使用在线和近线二级存储系统。电子邮件的存储数据量增长极快,这是绝大多数人的使用习惯所决定的。邮件看过后总觉得需要保留一段时间,时间一长,内容重要的和不重要的混在一起,没有时间整理,又不敢轻易删除,自然越积越大。大量的音、视频文件往往需要耗费极大的存储容量。但不同内容的文件被客户访问的频度是大不相同的。有的文件可能在同一时刻被很多客户访问,有的文件可能几个月也无人问津。即使一个新节目刚出来时会被很多客户访问,但时间一长,被访问的热乎劲儿过去后,也会坐冷板凳。如果对所有这些文件一视同仁,都存放在效率很高但同时价格昂贵的FC磁盘上,就会大大增加存储系统的开销。本世纪初,在近线存储系统出现后,人们发现通过建立二级存储系统,把访问频度高的文件放在主存储器上,把访问频度低的文件放在近线存储设备上,这样可以大大节省存储系统的建设费用。对于开始时访问频度高,后来访问频度减少的文件,可以设立一个门槛值,让系统根据这个门槛值,把它们从主存储器转存到近线存储设备上。

存储系统网络化。随着刀片式服务器和LINUX操作系统在主机端的大量应用,许多应用开始支持网络化结构,例如Oracle 10g。这种结构初始投资小,系统的扩展性极好。整个网络系统网格化,就意味着不仅服务器网格化,网络交换机和存储系统也要网格化。不论哪方面出现瓶颈,都可以用给该网格部分增加设备来消除瓶子口。在网站应用中,这种结构是最有弹性的。著名的YAHOO公司就采用了这种结构。

存储系统的高性能要求

众所周知,今天基于磁盘的存储系统,由于磁盘磁头臂的机械动作,导致磁盘的读写效率为毫秒级。它与CPU和内存的微秒级速度相差不只一个数量级。因此,如何提高存储系统的效率,特别是缩短存储系统的平均读写响应时间,就成了提高整个系统性能的关键。对网站而言,客户点击率是一个重要指标,而点击(Click)效应,要求网站的平均响应时间越短越好。

提高存储系统的性能可以从以下几个方面人手:

选用高性能文件系统。一般说来,一个应用要对磁盘进行读写操作,它首先向操作系统发出中断请求,再由操作系统把应用的读写要求交给文件系统处理。文件系统接受的是应用对存储的逻辑要求(即做什么),通过文件系统处理后变成对存储的物理要求(即怎么做)。NetApp的文件系统通过最大限度地减少磁盘磁头进行读写时的平均移动次数,可以极大提供存储系统的读写性能。其磁头在磁盘上的运动轨迹,比Unix或WindowsNT要简单得多。

NetApp的文件系统对大目录的处理有独特的处理方式,使得存储系统的效率并不因为目录增大而有明显变化。

选用大缓存,缩短应用的中断时间。由于磁盘磁头臂的机械动作速度太低,中高端存储系统普遍采用不掉电的大缓存来先缓存存储要求,用这种方法来缩短应用的中断等待时间,同时可以将存储要求经过一定处理,批量写到磁盘上,以提高磁头臂的读写效率。NetApp与其它存储供应商的不同之处在于,在NAS模式中它把缓存放在文件系统级,存放的是应用对存储的逻辑请求(做什么),而其它存储系统往往把缓存放在阵列控制级,存放的是已经经过文件系统处理后的应用对存储的物理请求(怎么做)。

增加磁盘阵列中并发操作的磁头数。尽量增加可以并发操作的磁盘磁头数,来提高存储系统的性能是最常用、也是最简单有效的办法。

高可用性、高存储空间利用率

对网站而言,它的全部业务、产品和服务都必须通过它的网页来提供。网页停止服务,就意味着对外一切业务都停止了。由于Internet没有国界、时间的界限,因此,网站媒体行业的存储系统必须提供24X7X365的高可用性。不仅计划外宕机不能容忍,计划内停机也不允许。但是相对计算机系统中的其它部件,磁盘一直是最容易损坏的部件。磁盘的损坏直接威胁数据的安全。磁盘阵列技术就是为了防止磁盘损坏造成数据丢失而引入的,它是数据保护最基本的保证。通常使用的RAID5或RAIDl算法,都只能保证任意一块磁盘损坏数据不丢失。但是随着单个磁盘的容量越来越大,磁盘损坏的概率也越来越大。特别是引入ATA磁盘后,由于其可靠性比光纤磁盘低了一个数量级,造成两块磁盘同时损坏的概率也就越来越大了。RAID0+1算法虽然能够防止非镜像的两块盘同时坏,但不能允许做镜像的两块盘同时坏,而且这种算法使得磁盘的利用率只有50%。NetApp的RAID DP技术,不仅能够防止任意两块磁盘同时坏,提高存储系统的空间利用率外,对于提高存储系统的性能也有重要作用。

用克隆产生临时修改过的音、视频文件

音、视频播出部门,有时需要在播出前,对要播出的音、视频文件做临时修改处理,但同时希望不改变存储系统中原来的文件。面对这种需求,存储系统必须具备克隆功能。NetApp FAS存储的克隆功能,具备生成快、消耗存储空间少的特点,它允许在系统中同时产生255个克隆。用户只需要在克隆环境中修改该文件,然后播出该文件。

上一篇:搜狐巧借奥运东风 下一篇:陈天桥的后游戏时代