自古英雄难过美人关。英雄的卓越功勋在世人眼中是有目共睹的,但是惟独过不了“美人”这一关。而如今,与此类似,谷歌、亚马逊以及微软这样的国际IT巨头,一度是何等的威武,但是在面对云计算“安全”这一关,也显得有些束手无策。从云计算服务诞生的那一天起,频频爆出一些安全事件,让用户本来就有些狐疑的心更加不安了。
就在上个月,云计算服务提供商Amazon(亚马逊)公司爆出了史前最大的宕机事件。4月21日凌晨,亚马逊公司在北弗吉尼亚州的云计算中心宕机,这导致包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。
这些网站都依靠亚马逊的这个云计算中心提供服务。Quora网站周四上午和下午在英国都无法访问。这个网站完全由亚马逊的EC2(弹性云计算)服务托管,就像FourSquare和许多其它网站一样。
受到影响,Hootsuite网站的响应速度很慢,而Reddit网站的搜索服务不能使用。Reddit网站称,亚马逊目前正出现服务下降的情况。亚马逊云服务中断持续将近4天,截止编者发稿时,Hootsuite、Reddit、FourSquare、Quora等网站已经基本恢复正常。
根据分析,亚马逊的云计算状态网页目前显示故障发生在北弗吉尼亚州的云计算中心。这个中心为许多Web 2.0公司提供服务。这次宕机故障发生在美国西海岸的大约凌晨1点40分,英国夏令时上午9点40分,并且从那时起一直有故障。
分析人士称,北弗吉尼亚州云计算中心是亚马逊经营的许多云计算中心之一,按照常规,系统的设计之处应用会考虑,一个中心宕机不会中断其它的云计算中心,也不会影响使用那个服务的用户。
此次,亚马逊云计算中心没有绕过北弗吉尼亚州云计算中心的故障把工作量转移到许多其它的云计算中心,令人生疑。服务器宕机,这在人们预想当中,没有那么严重。最简单的,双机热备,一台服务器宕机,另外一台服务器在短时间内可以启动,并不会影响用户的服务。但是,亚马逊的云计算中心这次不同,宕机影响了这么多用户的正常云服务,而且引起用户服务中断的,还是亚马逊引以为傲的弹性云,这对于云计算服务商刚刚建立起来的信任,绝对是一次沉重的打击。
经过一番紧急的抢救,亚马逊的云服务恢复了正常。但是,这个事件留给用户的恶劣影响有些深远,用户大呼“伤不起”。
好在亚马逊的态度还算坦诚。4月30日,亚马逊为宕机事件向用户发表了5700多字的道歉信,声称亚马逊公司已经知道漏洞和设计缺陷所在的地方,它希望通过修复那些漏洞和缺陷提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。亚马逊已经对EC2做了一些修复和调整,并打算在未来几周里扩大部署,以便对所有的服务进行改善,避免类似的事件再度出现。
在赔偿方面,亚马逊表示,将向在此次故障中受到影响的用户提供10天服务的点数(Credit),这些点数将自动充值到受影响的用户帐号当中。但是,对于以后如何避免出现类似事件,并没有提到任何法律上的保证。
据了解,亚马逊云服务中断持续了近4天,但是在法律上却没有违反亚马逊EC2服务的服务等级协议(简称SLA)。亚马逊的解释是,亚马逊出现故障的是EBS和RDS服务,而不是EC2服务,从法律上讲,它并没有违反服务等级协议。并且,对于亚马逊提出的应对宕机事件的建议——多点备份,仅仅是一个技术规范并非合同保障。这些,似乎都不能给云服务的用户带来信心。
表面看来,亚马逊宕机事件似乎有一个完美结局:厂商及时修复漏洞,书面道歉,赔偿损失。但是,用户心理上对云服务的恐惧似乎并不那么容易康复,未来,亚马逊可能不仅仅要在技术上、还需要在制度和法律上给予用户更多的保证,才能才能渐渐修复被此次宕机事件损坏的名声。