十大云宕机事件敲响警钟

时间:2022-09-27 08:22:13

经过几年的培育,云计算已经广受用户喜爱。借助云计算,用户可以丢开笨重的服务器,在网络天空里自由驰骋,甚至“云”本身这个名词就给人一种躺在蓬松的云朵上的奇幻感觉。

但现实总是复杂的。摆脱了保管数据的麻烦,自然也丧失了对数据的控制权,随之而来的自然是未知的安全隐患。事实上,没有什么比云服务宕机时更可怕的了。

今年4月,亚马逊服务器遭受了重大停机故障,直接影响到了大量使用亚马逊云服务的厂商,这让在这次事故前一个星期才刚刚注册使用亚马逊服务的Help Scout负责人Nick Francis心惊肉跳。“我们毫无准备,完全震惊了。”

“云计算正在被美化为一件神奇而又可靠的事物。”同样提供云服务的Rackspace公司首席战略官Lew Moorman指出,宕机是不可避免的,要确保自己不被这些错误影响,就要事先做好准备。

本期《云世界》专栏,我们特别介绍IT发展史上的十大云宕机事件,希望这十大事件引发的惨痛教训,能使读者从中吸取经验,更谨慎地对待云计算。

亚马逊云服务瘫痪

今年4月,亚马逊公司在美国北弗吉尼亚州的云计算中心出现故障――在一次网络升级中,当备份信息在寻找可嵌入的设备时,一个误转的通信位移传送了一连串弹性持久存储(EBS)的文件集,从而演化成一次重镜像风暴。反常的一系列错误导致亚马逊云服务瘫痪,美国东部多数公司因此受到严重影响。这次故障持续了整整4天,让很多使用亚马逊云服务的公司苦苦挣扎。

但同时,以Netflix为代表的部分企业却对此事件应对自如。这些企业幸存的关键在于,它们在已有失败的经验上重新设计了系统。“我们的设计师拒绝使用EBS作为主要的数据存储服务器,主要依赖SimpleDB、S3和Cassandra的服务器,因此没有受到宕机的影响。”Netflix的工程师表示。

Sidekick手机关机事件

智能手机能让用户在旅途中轻松获得信息,但其名称中的“智能”两字并不能保证它就不会犯傻。在2009年秋季,T-Mobile的Sidekick手机就搞砸过一次。当时,微软旗下的Sidekick手机遭受了将近一周的服务中断,导致用户无法访问电子邮件、日历信息和其他个人数据。更加雪上加霜的是,微软承认它已完全丢失了存储在云端的数据,也无法进行恢复。这次事故让用户的数据遭受了严重的损失。

Gmail的失误

所有云服务中,Google Gmail最有可能威胁到微软的行业地位,但Gmail也不是绝对靠谱的。最近,当15万个Gmail用户登录到Gmail账户时,呈现在他们面前的是一片空白――没有电子邮件、没有文件夹,用户们完全看不出来是在查收自己的收件箱。在事故发生后,Google承诺将迅速修复漏洞,但结果是,一些受影响用户的账户恢复时间长达4天。

事实上,Google在多个数据中心保存有用户数据副本,这事怎么可能发生?对于这个问题,Google的工程副总裁Ben Treynor在博客中解释道:“在一些罕见的情况下,软件错误可以影响数据的多个副本,而这次事故就是源于软件错误。”

Hotmail的大麻烦

在Google之外,微软也没有为推广云计算做出很好的表率。在2010年底和2011年初,由于Hotmail服务数据库错误,数以万计的Hotmail用户也遭遇了“空收件箱”问题。

根据微软的解释,这次Hotmail错误源于一个脚本错误,它原本是用来删除为自动化测试创建的虚拟账户,却错误地针对了1.7万个真实账户。最终,微软花了3天时间来还原大多数用户的服务,另外有8%的受害用户还多等了3天才拿回自己的数据。

Intuit两次中断

Intuit去年很不走运:在短短一个月内,其基于云的服务接连宕机了两次,包括TurboTax、Quicken和QuickBooks等大受欢迎的平台。最糟糕的情况是,6月份Intuit宕机了整整36个小时。问题的起因是,电源故障导致该公司的主系统和备用系统从电网完全断开。

屋漏偏逢连夜雨,几个星期后Intuit遭遇了另一次明显的电源故障。除了带来相关问题外,第二次宕机还引起众多用户在网上大爆粗口。一个用户在Twitter上发了这样的消息:“宕机25个小时让人很难接受。Intuit的一套被动的、缺乏透明的、死板的沟通方法无济于事。”

“事实上,如果你需要绝对的稳定性和安全性,有比单独采用云计算更好的解决方案。”惠普安全优势项目首席策略师Chris Whitener表示,“这不是说要复制一切,只需要多做一步――自己备份重要数据,这可以省去很多麻烦。”

微软的BPOS危机

如果基于云的生产力套件无法使用,工作效率就很难有保障。两个月前,依赖微软商业云服务解决方案的公司企业就遭到了这种情况:微软商业生产力在线标准套件(Business Productivity Online Standard Suite,简称BPOS)服务在5月10日前后开始停顿。结果,付费客户的电子邮件被延迟了长达9个小时才发送。

两天后,就在BPOS故障看似已经修复时,邮件延迟发送的毛病又来了,发出去的邮件开始堆积如山。接下来,更糟糕的事情又发生了:用户开始无法登录到微软基于互联网的Outlook门户网站。

Salesforce服务中断

一个小时的断网故障听起来或许并不严重。但是,如果你的公司掌握着数万家企业客户服务业务的命脉,这60分钟对于不少企业相当于一个生命周期。

当的数据中心在去年1月宕机时,它对此可是深有体会。新年过后4天,就宣布遇到了彻底的故障――这意味着服务、备份和其他一切都完蛋了。

令人抓狂?绝对如此。令人惊讶?不完全是。柯尼卡美能达公司旗下All Covered部门的首席信息官Tim Crawford表示:“现实情况是,基于云的数据中心同样会停止运行。过去一向如此,将来也是如此。我们一定要从现实的角度看待这个问题。”

Terremark的悲剧

最近,云服务提供商Terremark与Verizon之间的10亿美元的交易成为了重要新闻。但在2010年初,人们关注的主要是Terremark断网事故。

2010年3月17日,这一天也是西方的重大节日圣帕特里克节,Terremark的厄运来了。该公司的vCloud Express服务在那一天急转直下,位于迈阿密的数据中心断网了大约7个小时。在这段时间里,用户无法访问存储在这个数据中心的数据。

尽管业界都认同不要过于追求冗余,但这起事件还是表明了冗余机制的重要性――要将企业的关键数据放在不同数据中心的多台服务器上;或者更安全的做法是,放在不同地区的多台服务器上。

PayPal停滞故障

想要看看引起广泛严重影响的云断网故障吗?设法让PayPal断网几个小时就可以。

这不是假设的演习: PayPal在2009年夏季真的宕机了,导致全球数百万商户无法销售商品。PayPal服务在大约一个小时内完全崩溃,在后来的几个小时里依旧是断断续续。PayPal称,这次事故的起因是硬件故障。

Rackspace遭遇坎坷年

如果你为像美国科技博客TechCrunch和流行音乐天王Justin Timberlake这样的知名网站和网络红人提供云服务,最好还是相信这一点:一旦你的服务器停止运行,人们肯定会注意到。

Rackspace在2009年数次汲取了这个教训。这家云服务提供商在那一年先后遭到了4次重大的服务故障,导致其众多客户出现长达数小时的停机。每次故障就足以让Rackspace不得不向用户支付相当于近300万美元的服务折扣。

小贴示

技术可以改进,教训也不能忘记。用户必须清醒地意识到,对于关键数据,千万不要以为别人会自发保护它们。在选用云供应商时,一定要了解它们的灾难恢复解决方案。而最万无一失的,当然是自己独立备份重要数据。

你可以选择一系列提供商来托管工作负载――某一两家提供商充当后备提供商,另一家提供商充当主提供商。然后,你以一种安全的方式将工作负载部署到那里,确保合适的安全机制,随后开始添加你的弹。

上一篇:唐山抓住机器人机会 下一篇:软件英雄求伯君退出江湖