十大云宕机事件敲响警钟

时间：2022-09-27 08:22:13

经过几年的培育，云计算已经广受用户喜爱。借助云计算，用户可以丢开笨重的服务器，在网络天空里自由驰骋，甚至“云”本身这个名词就给人一种躺在蓬松的云朵上的奇幻感觉。

但现实总是复杂的。摆脱了保管数据的麻烦，自然也丧失了对数据的控制权，随之而来的自然是未知的安全隐患。事实上，没有什么比云服务宕机时更可怕的了。

今年4月，亚马逊服务器遭受了重大停机故障，直接影响到了大量使用亚马逊云服务的厂商，这让在这次事故前一个星期才刚刚注册使用亚马逊服务的Help Scout负责人Nick Francis心惊肉跳。“我们毫无准备，完全震惊了。”

“云计算正在被美化为一件神奇而又可靠的事物。”同样提供云服务的Rackspace公司首席战略官Lew Moorman指出，宕机是不可避免的，要确保自己不被这些错误影响，就要事先做好准备。

本期《云世界》专栏，我们特别介绍IT发展史上的十大云宕机事件，希望这十大事件引发的惨痛教训，能使读者从中吸取经验，更谨慎地对待云计算。

亚马逊云服务瘫痪

今年4月，亚马逊公司在美国北弗吉尼亚州的云计算中心出现故障――在一次网络升级中，当备份信息在寻找可嵌入的设备时，一个误转的通信位移传送了一连串弹性持久存储（EBS）的文件集，从而演化成一次重镜像风暴。反常的一系列错误导致亚马逊云服务瘫痪，美国东部多数公司因此受到严重影响。这次故障持续了整整4天，让很多使用亚马逊云服务的公司苦苦挣扎。

但同时，以Netflix为代表的部分企业却对此事件应对自如。这些企业幸存的关键在于，它们在已有失败的经验上重新设计了系统。“我们的设计师拒绝使用EBS作为主要的数据存储服务器，主要依赖SimpleDB、S3和Cassandra的服务器，因此没有受到宕机的影响。”Netflix的工程师表示。

Sidekick手机关机事件

智能手机能让用户在旅途中轻松获得信息，但其名称中的“智能”两字并不能保证它就不会犯傻。在2009年秋季，T-Mobile的Sidekick手机就搞砸过一次。当时，微软旗下的Sidekick手机遭受了将近一周的服务中断，导致用户无法访问电子邮件、日历信息和其他个人数据。更加雪上加霜的是，微软承认它已完全丢失了存储在云端的数据，也无法进行恢复。这次事故让用户的数据遭受了严重的损失。

Gmail的失误

所有云服务中，Google Gmail最有可能威胁到微软的行业地位，但Gmail也不是绝对靠谱的。最近，当15万个Gmail用户登录到Gmail账户时，呈现在他们面前的是一片空白――没有电子邮件、没有文件夹，用户们完全看不出来是在查收自己的收件箱。在事故发生后，Google承诺将迅速修复漏洞，但结果是，一些受影响用户的账户恢复时间长达4天。

事实上，Google在多个数据中心保存有用户数据副本，这事怎么可能发生？对于这个问题，Google的工程副总裁Ben Treynor在博客中解释道：“在一些罕见的情况下，软件错误可以影响数据的多个副本，而这次事故就是源于软件错误。”

Hotmail的大麻烦

在Google之外，微软也没有为推广云计算做出很好的表率。在2010年底和2011年初，由于Hotmail服务数据库错误，数以万计的Hotmail用户也遭遇了“空收件箱”问题。

根据微软的解释，这次Hotmail错误源于一个脚本错误，它原本是用来删除为自动化测试创建的虚拟账户，却错误地针对了1.7万个真实账户。最终，微软花了3天时间来还原大多数用户的服务，另外有8%的受害用户还多等了3天才拿回自己的数据。

Intuit两次中断

Intuit去年很不走运：在短短一个月内，其基于云的服务接连宕机了两次，包括TurboTax、Quicken和QuickBooks等大受欢迎的平台。最糟糕的情况是，6月份Intuit宕机了整整36个小时。问题的起因是，电源故障导致该公司的主系统和备用系统从电网完全断开。

屋漏偏逢连夜雨，几个星期后Intuit遭遇了另一次明显的电源故障。除了带来相关问题外，第二次宕机还引起众多用户在网上大爆粗口。一个用户在Twitter上发了这样的消息：“宕机25个小时让人很难接受。Intuit的一套被动的、缺乏透明的、死板的沟通方法无济于事。”

“事实上，如果你需要绝对的稳定性和安全性，有比单独采用云计算更好的解决方案。”惠普安全优势项目首席策略师Chris Whitener表示，“这不是说要复制一切，只需要多做一步――自己备份重要数据，这可以省去很多麻烦。”

微软的BPOS危机

如果基于云的生产力套件无法使用，工作效率就很难有保障。两个月前，依赖微软商业云服务解决方案的公司企业就遭到了这种情况：微软商业生产力在线标准套件（Business Productivity Online Standard Suite，简称BPOS）服务在5月10日前后开始停顿。结果，付费客户的电子邮件被延迟了长达9个小时才发送。

两天后，就在BPOS故障看似已经修复时，邮件延迟发送的毛病又来了，发出去的邮件开始堆积如山。接下来，更糟糕的事情又发生了：用户开始无法登录到微软基于互联网的Outlook门户网站。

Salesforce服务中断

一个小时的断网故障听起来或许并不严重。但是，如果你的公司掌握着数万家企业客户服务业务的命脉，这60分钟对于不少企业相当于一个生命周期。

当的数据中心在去年1月宕机时，它对此可是深有体会。新年过后4天，就宣布遇到了彻底的故障――这意味着服务、备份和其他一切都完蛋了。

令人抓狂？绝对如此。令人惊讶？不完全是。柯尼卡美能达公司旗下All Covered部门的首席信息官Tim Crawford表示：“现实情况是，基于云的数据中心同样会停止运行。过去一向如此，将来也是如此。我们一定要从现实的角度看待这个问题。”

Terremark的悲剧

最近，云服务提供商Terremark与Verizon之间的10亿美元的交易成为了重要新闻。但在2010年初，人们关注的主要是Terremark断网事故。

2010年3月17日，这一天也是西方的重大节日圣帕特里克节，Terremark的厄运来了。该公司的vCloud Express服务在那一天急转直下，位于迈阿密的数据中心断网了大约7个小时。在这段时间里，用户无法访问存储在这个数据中心的数据。

尽管业界都认同不要过于追求冗余，但这起事件还是表明了冗余机制的重要性――要将企业的关键数据放在不同数据中心的多台服务器上；或者更安全的做法是，放在不同地区的多台服务器上。

PayPal停滞故障

想要看看引起广泛严重影响的云断网故障吗?设法让PayPal断网几个小时就可以。

这不是假设的演习： PayPal在2009年夏季真的宕机了，导致全球数百万商户无法销售商品。PayPal服务在大约一个小时内完全崩溃，在后来的几个小时里依旧是断断续续。PayPal称，这次事故的起因是硬件故障。

Rackspace遭遇坎坷年

如果你为像美国科技博客TechCrunch和流行音乐天王Justin Timberlake这样的知名网站和网络红人提供云服务，最好还是相信这一点：一旦你的服务器停止运行，人们肯定会注意到。

Rackspace在2009年数次汲取了这个教训。这家云服务提供商在那一年先后遭到了4次重大的服务故障，导致其众多客户出现长达数小时的停机。每次故障就足以让Rackspace不得不向用户支付相当于近300万美元的服务折扣。

小贴示

技术可以改进，教训也不能忘记。用户必须清醒地意识到，对于关键数据，千万不要以为别人会自发保护它们。在选用云供应商时，一定要了解它们的灾难恢复解决方案。而最万无一失的，当然是自己独立备份重要数据。

你可以选择一系列提供商来托管工作负载――某一两家提供商充当后备提供商，另一家提供商充当主提供商。然后，你以一种安全的方式将工作负载部署到那里，确保合适的安全机制，随后开始添加你的弹。

十大云宕机事件敲响警钟

热门标签更多>

热门推荐更多>

精品范文更多>

十大云宕机事件敲响警钟

热门标签 更多>

热门推荐 更多>

精品范文更多>

热门标签更多>

热门推荐更多>