周,有媒体爆料,谷歌Gmail网络邮件服务再次发生中断事件,导致Gmail服务中断了90多分钟。不过,谷歌坦诚地公布了这一消息,承认在美国东部时间周四上午11点,发生了这样的故障并且宣布它在12点40分解决了这个问题。
据了解,谷歌称这个故障影响到1.38%的Gmail用户。目前据统计,Gmail拥有3.5亿活跃用户。假如这个故障影响到1.38%的活跃用户,那么,这个数字就是大约479万。受影响的用户不能访问谷歌Gmail账户。
可以断定,这不是IT巨头第一次出现网络故障,也肯定不是最后一次。
2012年谷歌网络服务再中断
在上周初,谷歌也发生Spreadsheets服务发生了大约两个小时的故障,许多用户受到影响。这个故障是当用户试图打开一个文件的时候,屏幕上频繁地显示验证码。并且,在2012年的四月中旬,谷歌同样是Gmail服务也曾发生一次故障,那一次影响的面积更大,影响到3300多万用户。
另外,在2011年3月,谷歌邮箱再次爆发大规模的用户数据泄漏事件,大约有15万Gmail用户在周日早上发现自己的所有邮件和聊天记录被删除,部分用户发现自己的帐户被重置,谷歌表示受到该问题影响的用户约为用户总数的0.08%。
谷歌在Google Apps状态页面表示:"部分用户的Google Mail服务已经恢复过来,我们将在近期拿出面向所有用户的解决方案。"它还提醒受影响的用户说:"在修复帐户期间,部分用户可能暂时无法登录邮箱服务。"
Google过去也曾出现故障,但整个帐户消失却是第一次。在2009年出现最严重的一次故障,有两个半小时服务停顿,许多人当时曾向Google投诉需用这个系统工作。接二连三出错,令全球用户数小时不能收发电邮。Google及微软等科技企业近年大力发展云计算,盼吸引企业客户,但云计算储存多次出事,恐打击用户信心。
早在2009年2月24日,谷歌的Gmail电子邮箱爆发全球性故障,服务中断时间长达4小时。谷歌解释事故的原因:在位于欧洲的数据中心例行性维护之时,有些新的程序代码(会试图把地理相近的数据集中于所有人身上)有些副作用,导致欧洲另一个资料中心过载,于是连锁效应就扩及到其它数据中心接口,最终酿成全球性的断线,导致其他数据中心也无法正常工作。
事件过去数日之后,Google宣布针对这一事件,谷歌向企业、政府机构和其他付费GoogleAppsPremier Edition客户提供15天免费服务,补偿服务中断给客户造成的损失,每人合计2.05美元。
遭遇这样悲惨命运的不仅只有谷歌一个,例如,亚马逊、谷歌、Salesforce.com等一些云服务提供商都有过类似的衰事。
亚马逊云安全事件。
2011年4月21日凌晨,亚马逊公司在北弗吉尼亚州的云计算中心宕机,这导致包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。
这些网站都依靠亚马逊的这个云计算中心提供服务。Quora网站周四上午和下午在英国都无法访问。这个网站完全由亚马逊的EC2(弹性云计算)服务托管,就像FourSquare和许多其它网站一样。
受到影响,Hootsuite网站的响应速度很慢,而Reddit网站的搜索服务不能使用。Reddit网站称,亚马逊目前正出现服务下降的情况。亚马逊云服务中断持续将近4天,截止编者发稿时,Hootsuite、Reddit、FourSquare、Quora等网站已经基本恢复正常。
根据分析,亚马逊的云计算状态网页目前显示故障发生在北弗吉尼亚州的云计算中心。这个中心为许多Web 2.0公司提供服务。这次宕机故障发生在美国西海岸的大约凌晨1点40分,英国夏令时上午9点40分,并且从那时起一直有故障。
分析人士称,北弗吉尼亚州云计算中心是亚马逊经营的许多云计算中心之一,按照常规,系统的设计之处应用会考虑,一个中心宕机不会中断其它的云计算中心,也不会影响使用那个服务的用户。
此次,亚马逊云计算中心没有绕过北弗吉尼亚州云计算中心的故障把工作量转移到许多其它的云计算中心,令人生疑。服务器宕机,这在人们预想当中,没有那么严重。最简单的,双机热备,一台服务器宕机,另外一台服务器在短时间内可以启动,并不会影响用户的服务。但是,亚马逊的云计算中心这次不同,宕机影响了这么多用户的正常云服务,而且引起用户服务中断的,还是亚马逊引以为傲的弹性云,这对于云计算服务商刚刚建立起来的信任,绝对是一次沉重的打击。
经过一番紧急的抢救,亚马逊的云服务恢复了正常。但是,这个事件留给用户的恶劣影响有些深远,用户大呼“伤不起”。
好在亚马逊的态度还算坦诚。4月30日,亚马逊为宕机事件向用户发表了5700多字的道歉信,声称亚马逊公司已经知道漏洞和设计缺陷所在的地方,它希望通过修复那些漏洞和缺陷提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。亚马逊已经对EC2做了一些修复和调整,并打算在未来几周里扩大部署,以便对所有的服务进行改善,避免类似的事件再度出现。
在赔偿方面,亚马逊表示,将向在此次故障中受到影响的用户提供10天服务的点数(Credit),这些点数将自动充值到受影响的用户帐号当中。但是,对于以后如何避免出现类似事件,并没有提到任何法律上的保证。
据了解,亚马逊云服务中断持续了近4天,但是在法律上却没有违反亚马逊EC2服务的服务等级协议(简称SLA)。亚马逊的解释是,亚马逊出现故障的是EBS和RDS服务,而不是EC2服务,从法律上讲,它并没有违反服务等级协议。并且,对于亚马逊提出的应对宕机事件的建议——多点备份,仅仅是一个技术规范并非合同保障。这些,似乎都不能给云服务的用户带来信心。
表面看来,亚马逊宕机事件似乎有一个完美结局:厂商及时修复漏洞,书面道歉,赔偿损失。但是,用户心理上对云服务的恐惧似乎并不那么容易康复,未来,亚马逊可能不仅仅要在技术上、还需要在制度和法律上给予用户更多的保证,才能才能渐渐修复被此次宕机事件损坏的名声。
Rackspace云服务中断事件
2009年6月,Rackspace遭受了严重的云服务中断故障。供电设备跳闸,备份发电机失效,不少机架上服务器停机。这场事故造成了严重的后果。
为了挽回公司声誉,Rackspace更新了所有博客,并在其中详细讨论了整个经过。但用户并不乐意接受。
同年11月,Rackspace再次发生重大的服务中断后。事实上,它的用户是完全有机会在服务中断后公开指责这位供应商的,但用户却表示“该事故并不是什么大事。”看来Rackspace不是走好运,而是持续提供了充足更新并快速修复了这些错误。
在服务中断致使其业务脱机15到20分钟后,博客服务提供商Posterous的创建者之一Sachin Agarwal就发表了自己的观点。Agarwal对此并不生气,相反,他表示Rackspace在这件事上做得“很透明”,处理问题也很及时到位。
看来,如果没有严重数据的丢失,并且服务快速恢复,用户依旧保持愉快的使用体验。对于所谓的“100%正常运行”,大多数用户似乎不会因为偶尔的小事故而放弃供应商,只是不要将问题堆积起来。
Salesforce.com服务器宕机。
2010年1月,几乎6万8千名的Salesforce.com用户经历了至少1个小时的服务器宕机。
Salesforce.com由于自身数据中心的“系统性错误”,包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了 Salesforce.com不愿公开的锁定策略:旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦 Salesforce.com出现问题,Force.com同样会出现问题。所以服务发生较长时间中断,问题将变得很棘手。
这场服务中断还没有对公司造成很大影响,它同VMware合作的VMforce在今年春季引起很大反响,同时Salesforce.com首席执行官在服务中断出现后的一个月内又开始宣称Salesforce.com是“最大的云计算企业”。
这次中断事故让人们开始质疑Salesfore.com的软件锁定行为,即将该公司的Force.com平台绑定到Salesforce.com自身的服务。但总之,这次事件只是又一次地提醒人们:百分之百可靠的云计算服务目前还不存在。
小结:早在2010年5月份,埃森哲与中国电子学会共同发布了一份名为《中国云计算发展的务实之路》的报告。报告指出,安全问题是全球对云计算最大的质疑。而这种担忧在中国尤为突出,"以至于首席信息官们如履薄冰,特别是面对公有云服务时"。
云安全问题一直是全球政府和企业都较为头痛的难题,如果能够跨越这一关,那么,云服务则能够顺利地得到大范围应用,反之则止步不前。所以,可以断定宕机事件的发生,在很大程度上,将使得其在全球特别是在中国推广云服务业务更加困难。这正是,国内很多企业和政府更加相信私有云的安全性。
但是,如果仅仅从这些云服务宕机事件,就得出结论:云计算一无是处,不该被推广!这似乎有些太过于武断。安全事件,并不仅仅是云计算的专利,任何IT系统都将承受来自安全方面的压力,不管是来自于天灾,还是人祸。
宕机事件使得人们进一步思考,公有云面临的安全问题。尽管公共云拥有众所周知的成本优势,但是用户不得不提防其存在的安全性、法规遵从和服务质量的隐患。既然数据由第三方托管,客户就希望服务提供商保证数据安全,既不丢失也不被非法访问,遵从法规对存储系统和数据保存位置的要求,并通过网络提供低延迟、高可用的服务。