网站媒体行业的存储系统

时间:2022-06-05 06:06:05

网站媒体行业的存储系统

近十年来,基于磁盘的存储技术取得了长足的进步。企业级存储所使用的磁盘,从SCSI磁盘到Fibre Chan―nel磁盘,单盘容量不断扩大,目前常用的从几十GB到几百GB种类繁多。随着ATA磁盘进入企业级存储应用,又在所谓在线(online)存储和离线(0ffline)存储之间出现了所谓近线(Near―line)存储的概念。串行ATA(sATA)和串行SCSI(SAS)磁盘技术的逐渐成熟,使得分级存储模式和信息生命期管理也日益得到普及。NAS、FcSAN以及iSCSI等不同存储模式广泛应用,更使得用户往往不知所措。

网站媒体行业的主要数据处理对象是文件,包括音、视频文件;HTML的网页应用以及电子邮件应用,经常面对的是千百万个并发访问,而每个访问的数据文件却不大,往往只有几K字节,出现所谓小文件大目录的情况,但数据存储的总容量要求很大;不同内容的访问频度差别也比较大,热门内容在某特定时间的并发访问量往往很大。

有时播出部门在播出某个音、视频文件前,要求对文件做一些临时性修改,然后播出,同时又要求对原文件不做任何修改。这些特点对存储系统的模式和结构都提出了特别要求。

需要以NAS为主,NAS和SAN一体化的存储

大目录小文件的数据处理对象是文件。音、视频文件的共同特点是单个文件很大,在存储系统中不宜大量复制。为满足大量不同操作系统的服务器共享,最好采用NAS存储模式。这部分内容所需存储占整个存储系统容量的大部分。对大量音、视频文件的查找,人们习惯采用数据库技术来处理其文件目录。对于客户信息管理,最好采用数据库技术。目录数据库和客户数据库的数据存储容量通常不会非常巨大,这两种数据库的存储模式可以采用Fc sAN、iSCSI或NAS几种模式。如果数据库比较大,最终用户的技术力量很强,则可以选择FCSAN模式,这种模式适宜数据库直用,当然价格也最昂贵(包括购买光纤交换机、光纤阵列、HBA卡等设备费用和管理维护费用)。如果最终用户的技术力量有限,目录数据库和客户数据库又不是非常大,则可以采用iSCSI或NAS模式。因为这两种模式均建立在以太网环境下,不仅购买成本比较低,管理维护的费用也低很多。如果用户选择微软的SQL Server数据库,iSCSI更是一种理想的选择。目前的FCSAN模式不能直接实现数据共享,这是由于FCSAN在实际应用中存在着存储孤岛问题。

应该使用在线和近线二级存储系统

电子邮件的存储数据量增长极快,这是绝大多数人的使用习惯所决定的。邮件看过后总觉得需要保留一段时间,时间一长,内容重要的和不重要的混在一起,没有时间整理,又不敢轻易删除,自然越积越大。大量的音、视频文件往往需要耗费极大的存储容量。但不同内容的文件被客户访问的频度是大不相同的。有的文件可能在同一时刻被很多客户访问,有的文件可能几个月也无人问津。即使一个新节目刚出来时会被很多客户访问,但时间一长,被访问的热乎劲儿过去后,也会开始坐冷板凳。如果对所有这些文件一视同仁,部存放在效率很高但同时价格昂贵的Fc磁盘上,就会大大增加存储系统的开销。本世纪初,在近线存储系统出现后,人们发现通过建立二级存储系统,把访问频度高的文件放在主存储器上,把访问频度低的文件放在近线存储设备上,这样可以大大节省存储系统的建设费用。对于开始时访问频度高,后来访问频度减少的文件,可以设立一个门槛值,让系统根据这个门槛值,把它们从主存储器转存到近线存储设备上,这就是信息生命周期管理的概念。这种二级存储的管理模式。NetApp公司是第一个推出近线存储概念和设各的公司,它的第三代近线存储R200是性能价格比最好的这种中高端存储产品。

NAS虚拟化

高端NAS,一台设备可以支持几十TB甚至上百TB的存储容量,但由于存储空间的需求增长太快,一个单位或企业的NAS设备数目也会增长很快。一方面,这些设备应该通过专用的千兆交换机,搭建专用的IP存储网络。另一方面,还直陔通过类似ACOPIA的ARX技术来简化网络结构,实现所谓NAS虚拟化,把所有NAS设备(可以是不同供应商的产品)统一管理起来,并能够实现多台NAS设备的空间和性能的负载平衡。

存储系统网格化

随着刀片式服务器和LINUX操作系统在主机端的大量应用,许多应用开始支持网格化结构,例如0racle10q。这种结构初始投资小,系统的扩展性极好。整个网络系统网格化,就意味着不仅服务器网格化,网络交换机和存储系统也要网格化。不论哪方面出现瓶颈,部可以用给该网格部分增加设备来消除瓶子口。在网站应用中,这种结构是最有弹性的。

应对热门内容的突发性并发访问要求

客户在点播音、视频文件时,对于热门内容(如新出的热门电影、电视剧、歌曲、游戏等)的并发访问量,如果在某个时间段内超过存储设备的最大性能限度,就会使系统性能急剧下降。这时候如果使用了Acopl。a的ARX技术,它就可以在多台物理设备上自动产生相同的文件拷贝,通过分担I/0负载的办法,增加整个存储系统的处理能力,使系统性能不会降低。并且会在系统负载减小时自动删除这些拷贝。这一功能对于客户是完全透明的。NetApp也有一个FlexCache技术,可以通过在多台NetApp的Filer上建立FlexCache卷的办法,对源数据的读写进行自动管理,使多个FlexCache卷上的数据永远与源数据一致,同时大大提高数据访问的性能。

存储系统的高性能要求

众所周知,今天基于磁盘的存储系统,由于磁盘磁头臂的机械动作,导致磁盘的读写效率为毫秒级。它与CPU和内存的微秒级速度相差不只一个数量级。因此,如何提高存储系统的效率,特别是缩短存储系统的平均读写响应时间,就成了提高整个系统性能的关键。对网站而言,客户点击率是一个重要指标,而点击(Click)效应,要求网站的平均响应时间越短越好。

提高存储系统的性能可以从以下几个方面人手:

选用高性能文件系统。一般说来,一个应用要对磁盘进行读写操作,它首先向操作系统发出中断请求,再由操作系统把立用的读写要求交给文件系统处理。文件系统接受的是应用对存储的逻辑要求(即做什么),通过文件系统处理后变成对存储的物理要求(即怎么做)。NetApp的文件系统通过最大限度地减少磁盘磁头进行读写时的平均移动次数,可以极大提供存储系统的读写性能。其磁头在磁盘上的运动轨迹,比Unix或Windows NT要简单得多。

对于大目录小文件的数据访问,Unix或Windows NT的处理效率不高,随着目录越来越大,存储的效率会变得越来越小。NetApp的文件系统对大目录的处理有独特的处理方式,使得存储系统的效率并不因为目录增大而有明显变化。

选用人缓存,缩短应用的中断时间。由于磁盘磁头臂的机械动作速度太低,中高端存储系统普遍采用不掉电的大缓存来先缓存存储要求,用这种方法来缩短应用的中断等待时间,同时可以将存储要求经过一定处理,批量写到磁盘上,以提高磁头臂的读写效率。NetApp与其它存储供应商的不同之处在于,在NAS模式中它把缓存放在文件系统级,存放的是应用对存储的逻辑请求(做什么),而其它存储系统往往把缓存放在阵列控制级,存放的是已经经过文件系统处理后的应用对存储的物理请求(怎么做)。因此,前者比后者的性能要好。

增加磁盘阵列中并发操作的磁头数。尽量增加可以并发操作的磁盘磁头数,来提高存储系统的性能是最常用、也是最简单有效的办法。

用克隆产生临时修改过的音、视频文件。音、视频播出部门,有时需要在播出前,对要播出的音、视频文件做临时修改处理,但同时希望不改变存储系统中原来的文件。面对这种需求,存储系统必须具备克隆功能。

综上所述,虽然同是磁盘存储系统,采用不同的存储模式,不同的磁盘模式,不同的存储产品,对不同的直用就会有不同的系统效率。

吴本中:北京合力共创网络技术有限公司首席技术执行官

上一篇:移动营销和移动广告 下一篇:“超越”超文本“流向”流媒体