云计算服务在这个时代被吹捧成为IT圣者,所有的服务都可以被“云”化。但是,当很多公司勇于第一个吃螃蟹之后,却发现往往最容易受伤的也是他们。近几年来,层出不穷的云服务断网事件,让业界听得心惊胆寒。
人们渐渐回归理想,更加清晰地看清楚云计算的真面目。可以说,无论多么高远的梦想还是要找到稳固的立足点,云服务最终还是要从一个数据中心被传输到另外一个数据中心,在这个过程仍然摆脱不了需要人、计算机、网络、电能、存储等之间协同工作。这样一来,整个过程出现错误和漏洞就在所难免,再加上天灾人祸。所以,启用云服务你必须有一定的思想准备,同时要有第二手的解决方案来应对。
编者在这里回顾一下近年来发生的一系列断网事件背后的原因。从2009年-2012年之间。也许能让你看到:即便是计算机出错似乎在所难免,再保险的措施似乎也只能把安全事件控制在一个小概率范围内。
断网类型一:系统故障
典型事件1:亚马逊AWS平安夜断网
故障原因:弹性负载均衡服务故障
2012年12月24日,刚刚过去的圣诞节平安夜,亚马逊并没有让他们的客户过得太平安。亚马逊AWS位于美国东部1区的数据中心发生故障,其弹性负载均衡服务(Elastic Load Balancing Service)中断,导致Netflix和Heroku等网站受到影响。其中,Heroku在之前的AWS美国东部区域服务故障中也受到过影响。不过,有些巧合的事情是Netflix的竞争对手,亚马逊自己的业务Amazon Prime Instant Video并未因为这个故障而受到影响。
12月24日,亚马逊AWS中断服务事件不是第一次,当然也绝非最后一次。
2012年10月22日,亚马逊位于北维吉尼亚的网络服务AWS也中断过一次。其原因与上次相似。事故影响了包括Reddit、Pinterest等知名大网站。中断影响了弹性魔豆服务,其后是弹性魔豆服务的控制台,关系数据库服务,弹性缓存,弹性计算云EC2,以及云搜索。这次事故让很多人认为,亚马逊是应该升级其北维尼吉亚数据中心的基础设施了。
2011年4月22日,亚马逊云数据中心服务器大面积宕机,这一事件被认为是亚马逊史上最为严重的云计算安全事件。由于亚马逊在北弗吉尼亚州的云计算中心宕机,包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。亚马逊官方报告中声称,此次事件是由于其EC2系统设计存在漏洞和设计缺陷,并且在不断修复这些已知的漏洞和缺陷来提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。
2010年1月,几乎6万8千名的Salesforce.com用户经历了至少1个小时的宕机。Salesforce.com由于自身数据中心的"系统性错误",包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了Salesforce.com不愿公开的锁定策略:旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出现问题,Force.com同样会出现问题。所以服务发生较长时间中断,问题将变得很棘手。