美国签证系统又崩溃了,灾备就那么难?

时间:2022-07-18 11:26:24

美国签证系统又崩溃了,灾备就那么难?

在IT服务公司中油瑞飞的技术总监黄晟看来,“宕机”是一种网络信息安全中的“黑天鹅”事件,既稀有、不可预测,又足以颠覆一切―不过最近一个月,这一“黑天鹅”可一点也不稀有了。

继5月支付宝、携程、艺龙先后经历系统崩溃后,美国签证系统也从6月9日开始停运,且至今还未完全修复,其数据库无法接收所有国外签证处申请人的个人信息。据路透社报道,它没有受到黑客攻击,而是硬件故障。而就在去年差不多的时间,美国签证系统也因病毒入侵短暂瘫痪过一次。

要知道,美国平均每天会收到5万份来自全球各地的签证申请。因为这次宕机很可能影响到数十万人。而数据的丢失对从事交易业务的公司更是致命的。

纽约银行就领教过这种“威力”,它把数据中心总部建立在了纽约的世贸大厦。9・11事件发生几个月之后,这家银行也跟着进行了破产清算,原因就在于,它从未给自己的交易数据建立过灾备系统―一种在本地数据之外,用异地服务器存储同样数据的方法。

信息技术咨询公司Gartner Group的调查显示,在经历大型灾难而导致系统停运的公司中,有40%再也没有恢复运营,剩下的公司中也有1/3在两年内破产。

其实,数据备份技术相较以往已有了很大进步。

最初,它只能做冷备份,即每隔一段时间进行一次数据复制,通过全量和增量数据的结合,确保一旦出现故障时,至少可以恢复到接近当前某个时刻的水平。

热备份随着带宽技术的进步而出现,它可以在至少两台设备上同时进行相同的数据操作,如果一个设备出现故障,可以快速切换到备用设备,而无需重建数据。很多公司用热备份技术在不同地方建立数据中心,实时备份主机数据。

无论是支付宝、携程还是美国领事馆,都拥有异地备份,但它们仍然没有像人们期待的那样迅速切换自身系统―最快的镜像数据,也要晚几十秒才能到达异地服务器。

去年7月的那次宕机事故发生后,美国领使馆曾表示,他们当时试图切换到备份数据,但却发现备份数据也是坏的。毫无损失的灾备切换并不存在,除非没有数据交流。对于每秒钟都在发生支付交易的公司,数据丧失会造成多大的财务损失无法估量,决策者通常也不敢轻易做出切换数据库的决定。

而导致公司和机构没能及时应对的最糟糕、也最有可能的原因是,它们根本没能力切换使用灾备系统。

“启动灾备数据是需要条件的。”黄晟对《第一财经周刊》说。习惯了本地服务器的全系统其实对异地服务器存在着识别障碍。每台设备都有一个IP地址,就像每个人都有一个名字,设备与设备之间通过协议工作,就像人与人要先建立关系才能交流一样。本地的运维系统切换使用备份服务器的数据时,如果没有提前被“告知”新的连接路径,它将难以找到数据调用。

很少有公司提前预知这样的状况,并制定出说明了新路径的灾备方案―直到它们经历系统崩溃。美国的银行公司多数也是在9・11事件之后才学到教训,开始投入大量财力建立灾备系统的。

麻烦的是,每个针对系统优化的本地修改发生时,这个灾备方案都最好同时被修改。

互联网公司对自己的IT系统修改的频率越来越高,以前可能一个月一两次,现在,则可能一天就要改动几次,或增加新业务模块,或优化已有业务流程。为了提高操作效率,这些互联网公司还改变了作业方式,用自动化运维替代手动变更后,一个程序员可以同时操作几千台服务器。

随着修改变得迅速,风险到来的速度和涉及面也同步扩大。切换方案的修改一旦没有跟上系统开发、优化的修改,风险成为现实时,即使切换,系统可能也恢复不了在本地最新修改的数据。

外部的技术服务公司几乎无法介入提供帮助,它们跟不上其数据库的成长速度。据国外技术媒体TheRegister称,美国“领事综合数据库”是基于甲骨文公司技术研发出的全球最大数据库系统之一,但甲骨文只提供系统给这些机构使用,并不跟随灾备。

拥有大批用户数据的公司和机构们只得自己来做灾备方案,“至少需要花费现有IT投入1.5倍的资金。”黄晟说。对中小型公司来说,这是个艰难的决定。

不缺资金的大公司同样面对挑战。这些公司的业务都变得越来越多,每项业务都有自己的开发和运营维护人员,他们像个网状组织,各个环节每天都在各自忙着开发、优化程序,哪个环节对数据库做了什么修改,新写入什么指令,相互并不知情。

所以,要想实施信息安全计划,除了对已有存量数据的存储方式做备用路径方案,这些公司可能还要修改它们IT团队的组织架构,建立新的协同方式。

云技术可以在一定程度上解决备份数据的路径麻烦。这种虚拟存储技术通过改变计算数据的方法,抹去了不同服务器之间的身份差别,本地和异地服务器得到了相同对待。当本地系统出现突发状况,存储于异地服务器的数据可以无路径障碍地被本地运维端调用。

但目前并没有大公司将它们的服务器虚拟化。这也涉及一种算法,控制这种算法仍需要程序,这意味着,这条程序同样存在被修改的风险。如此,很可能本地数据和异地数据都调用不了。

无论有没有备份,公司们都倾向于修复它们的本地数据,哪怕耗时会越来越长―它们的数据管理能力也会因此受到质疑。一般认为,备份数据某种程度上只是为了应对类似自然灾害等不可抗力而储备的。

“人们质疑这些公司是因为它们的身份卷入度。”反病毒引擎技术供应商安天实验室的首席技术架构师肖新光对《第一财经周刊》说。

6月16日,美国国务院称,100多位专家已经前往修复该系统,但完全修好还要再过大约一周时间。在美国驻华大使馆的网页上,6月9日之后申请签证面谈的人目前都需要重新预约时间,而很多人发现,最早的时间已经排到了7月。那些涉及交易支付的网站,遇到宕机时,也会给用户带来同样的焦虑感和不信任感。

如今,这些公司和机构在“夸耀”其业务日趋复杂,管理的数据总量异常庞大的同时,或许还应该承认一个令它们有些羞愧的事实:无论安全技术还是管理,它们还不能跟上自身数据进化的程度。

上一篇:数字化转型,赶紧跟上 下一篇:新东方明珠诞生