如何存储“冷数据”?

时间:2022-06-16 02:25:52

如何存储“冷数据”?

“冷数据”的存储和管理,已经成为企业数据中心存储方面的一大难题和挑战。

移动终端、云计算、物联网的普及,使得数据量正在以前所未有的速度高速增长。

在中国,这一趋势表现得更加明显:2013年,中国新增智能手机数量将达到3.8亿。而微信的用户数量则已超过4亿,比去年增长了4倍。在这些数字背后的,是数据产生量与访问量的爆炸性增长。有关机构预测:2013年,中国将产生超过8.6PB的数据。而且,这一飞速的增长趋势正随着中国政府出台促进信息消费政策而被进一步激发,朝着更多样化、数量更多的联网设备终端,更为海量的数据以及应他们所需而生的更为丰富的信息服务和应用的方向发展。“从数据中心到平板电脑、手机和可穿戴等超移动设备,计算产业各领域正在经历一场激动人心的革命。”英特尔公司全球副总裁、中国区总裁杨叙如是说道。

数据存储面临窘境

显然,在这个计算无处不在、数据包围生活的时代,企业用户也必须直面这场“数据风暴”。事实上,随着用户数据的集中化,企业的数据中心正在承受着越来越大的存储压力,尤其是对于一些大规模数据中心而言,更是如此。

特别是随着云数据中心的出现,一些超大规模的数据中心,服务器、存储设备的数量可以达到几万台甚至十万台以上。在这种情况下,数据中心所面临的数据存储和管理压力可以用巨大来形容。可以想象一下:数据中心的数据量以每年50%的速度增加,但企业IT部门留给存储的预算每年则只有1%到5%的增加,这一供、需之间的矛盾,使得企业IT部门在数据存储上面临着捉襟见肘的窘境。

降低“冷数据”存储成本

怎样才能化解这一窘境?

如果我们对数据中心内的数据进行分析,就会发现这些数据其实存在一些差异:一些数据,会被系统所实时使用,通常称这类数据为“热数据”;有些数据的使用频率不是太高,但也经常会被系统调用,这类数据通常被称为是“暖数据”;有些数据则很少被系统所使用,这类数据则被称为“冷数据”。

有关调研机构的分析结果显示:在企业的数据中心中,只有10%~15%的数据是被经常访问的,而其他全部是“冷数据”。

显然,这些“冷数据”在企业中,使用的频率非常低。对于这部分数据而言,并没有太多的计算能力需求,企业需要的只是将这些数据很好地存储、管理起来。

但如果采用传统的存储设备来存储“冷数据”,无疑是在用“大马拉小车”,会产生很多问题,譬如单位存储成本高、功耗高、CPU利用率低等。这些问题正是造成企业存储供需矛盾的主要原因之一。所以,企业用户要想化解存储供需矛盾,必须要寻找一种新的存储设备或解决方案去解决“冷数据”的存储和管理问题。

金山云就在这方面遇到了很大的挑战,作为云存储服务提供商,金山云存储平台和金山快盘是金山云的核心产品。主要是为用户提供云存储方面的服务,其中金山快盘在中国的个人用户量已经超过8000万。如此巨大的用户量,所产生的数据量可想而知。“作为存储服务提供商,我们的职责是把用户的数据存好,并且在用户想要使用的时候快速拿出来。但同时,我们也要尽可能地降低存储成本。”金山云首席技术官杨钢介绍道。

而在金山快盘上的数据,其中绝大部分都是“冷数据”。例如个人用户所上传的照片。用户可能经常会拍照,并把照片不断上传到金山快盘中。但这些照片在上传后,用户基本上很少会去访问。而这些照片在经过几年的积累后,就形成了庞大的数据量。

“我们对数据进行了梳理和分层,发现有五类数据:热点数据、次热点数据、活跃数据、不活跃数据、沉默数据(冷数据),而冷数据在所有数据中所占的比例日益增大,给我们带来了很大的存储压力。”在杨钢看来,这些冷数据并不适合原有的存储平台,但如何才能找到合适的存储平台呢?

其实,这样的挑战并非金山云所独有。FACEBOOK也曾遇到过类似的问题。用户每天上传到FACEBOOK的图片超过3亿张,出现突况时,数量会更多。以万圣节为例,一天的图片上传量可能达到10亿张以上。但是人们通常很快就会对万圣节的这些照片失去兴趣,很少有人会在几天或者几周之后再看这些照片,但是对于FACEBOOK而言,却无法在人们不再访问这些图片的情况下删除它,只能继续保存这些规模庞大的“冷数据”。

以往,解决“冷数据”存储问题的通常做法是采用磁带。这种做法虽然大大降低了数据中心的能耗和存储成本,但其实是以牺牲数据访问速度作为代价的:如果想要访问这些“冷数据”,通常需要几个小时甚至更长的恢复时间。这对于很多用户而言,是无法接受的。

所以,用户所需要的“冷数据”存储解决方案应该具备以下几个特点:较低的每TB存储成本、低功耗、安全、数据可以自由迁移、更优化的计算能力。

同时具备以上几个特点的存储解决方案,并不容易找到。

C2000化解“冷数据”存储难题

不过,英特尔公司近日的凌动处理器C2000,却为企业用户解决“冷数据”存储和管理带来了“曙光”。据悉,与前代产品相比,C2000最多可集成8个内核,拥有更强的计算能力,性能提升多达7倍。而通过采用革新的微架构和22纳迷3-D三栅极晶体管制程技术,该产品提供了多达6倍的功耗效率提升。6瓦至22瓦的热设计功耗则能够显著节省成本并带来更高的数据中心密度。

英特尔(中国)有限公司平台事业部总经理BrentYoung表示:“凌动处理器C2000的面世,将会帮助用户更好的应对数据增长,特别是对冷数据的存储和管理。”

对于这款产品,杨钢有着切实的体验。事实上,一直在寻找合适的“冷数据”存储解决方案的他,在知道C2000后,马上意识到这款产品很有可能就是合适的“答案”。“测试的结果让我感到惊艳!在I/O处理和数据计算方面,Avoton的性能相对于上一代产品提升七倍,这正好进入了冷数据处理软件设计非常舒服的区间。经过近一个月时间对C2000 Avoton平台的测试,我们发现该产品的性能完全能够满足金山快盘对于冷数据存储的需求,并能够降低最多达20%的单位存储能耗,并拥有可预期的设备成本降低。”

同样分享测试体会的还有盛大游戏有限公司数据中心运营经理季青。

作为国内领先的互联网游戏供应商,盛大游戏目前运营的游戏数量超过100个,与游戏数量相对应的是数据中心的规模也在不断扩大。季青笑言,其所在的数据中心部门已经成为全公司花钱最多的部门,公司老板为此头疼不已。“因此,如何降低数据中心的TCO、降低数据中心的功耗已经成为盛大游戏有限公司数据中心的最大需求之一。”

在对C2000 Avoton平台进行测试后,季青认为,这款产品能够轻松满足“冷数据”备份与前端WEB这两项业务实际工作负载的需求。“该款处理器计算性能可以很好的应对高I/O、高吞吐率的环境,并具有低功耗及更高能效。因此,在一些特定应用领域将有着很好的表现,例如在“冷数据”存储方面就十分适合。而在同类解决方案中,由于C2000 Avoton平台能够与现有应用完全兼容,并能够得到厂商更大力度的支持,其优势更为明显。”季青坦言,如果把盛大游戏有限公司数据中心的服务器都换成基于C2000 Avoton平台的服务器,那么数据中心每年可以节省数百万元的成本。

上一篇:快的打车:让打车不再困难 下一篇:如何变成智慧城市创造者