支付宝大面积瘫痪 灾备能力为何引发争议


此次事件反应出支付宝在故障倒换能力和应急反应速度上还有待提高,反应出互联网公司在应急处理能力上的普遍短板,互联金融系统的运行稳定性并不如此前所宣称那样完善。

谢丽容 由曦 宋玮/文

5月27日下午5点,拥有将近3亿活跃用户的支付宝出现了大面积访问故障,全国多省市支付宝用户出现手机和电脑支付宝无法登陆、余额错误等问题。对于导致此次事件的原因,蚂蚁金服方面的解释并未获得金融和互联网界的广泛认同。

在蚂蚁金服发给《财经》的官方回应中称,出现这一问题的原因在于市政施工导致杭州市某地光缆被挖断,影响了支付宝一个主要机房的正常运转。当天晚上19时左右,即在事故发生大约两个多小时以后,支付宝服务才恢复正常。

蚂蚁金服称,无法精确统计在故障时间段内使用支付宝的具体用户数量。

拥有超过4万亿年交易总额的支付宝是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。故障发生后,用户普遍担心账户资金安全问题,亦有用户反应出现账户余额不同步的现象。

蚂蚁金服对此回应,支付宝有完善的技术和措施保护用户的资金安全,支付宝中的任何一个交易,同时都会有多份记录,数据可靠性极高。如果有用户出现交易不同步的情况,后续都会得到妥善解决。

这份蚂蚁金服发给《财经》的官方回应还指出,支付宝异地多活的系统架构在此次意外中发挥了巨大作用:一方面,没有因光缆被挖断而影响全部用户;另一方面,紧急将故障机房的流量切换至了其他机房。在当晚7点支付宝服务恢复时,被挖断的光缆还没有修复。

蚂蚁金服一位高管向《财经》记者表示,大流量网站实时切换涉及资金时有难度,需要安全地将用户的数据,尤其是资金数据也切换到其它机房,所以切换操作需要花费较多的时间。“技术上可以做到更快恢复,之所以较慢是为了确保不丢数据。”

蚂蚁金服对于这次事故的内部总结是,数据校验较多,怕丢数据,所以花了较多时间。内部认为这是一次安全但不够漂亮的灾备实战,就好比跳水,起跳不错,空中动作也还行,但入水压水花不够好。

《财经》记者了解,支付宝采用异地双活的系统架构,的确有多个机房。正因为如此,本次支付宝杭州机房网络中断,只影响了一个机房,其它机房的业务不受影响。

但这依然受到外界质疑。质疑焦点有二:一是恢复时间竟然长达两个小时;二是究竟是出于资金安全考虑而主动放缓速度还是支付宝应急预案出现漏洞?

一位国有大型银行内部人士向《财经》记者表示,如果在银行的支付系统发生大面积瘫痪超过2个小时,已经属于重大安全事故,很有可能要向国务院汇报备案。

他向《财经》记者强调,传统金融机构发生这样波及全国范围的安全问题几率微乎其微,原因在于银行涉及用户资金的重要系统灾备方案十分完备,一般是“两地三中心”云备份方案,保证“同城灾备结合异地灾备”,目的在于防止重大灾难或战争等极端情况。

上述国有大型银行内部人士认为,正因为此,如果银行系统出现支付宝因光缆被挖断而导致一个数据中心停摆的情况,用户流量和系统会向同城或异地其他数据中心切换。“就算不会是即时切换,也不会花费太长时间,同城可能会更快,就是用户根本感受不到延迟。”

这一说法得到多位接受《财经》记者采访的电信技术人士的支持。中国电信的一位技术高层人士分析,服务故障切换机制应该是自动的,根据一定的事先设置的策略,无需人为干预,人工可以在服务切换后,再重新定义流量疏导方式。

该人士称,支付宝多中心制的网络架构设计,不同于普通用户接入光缆宽带服务,不可能只是用一个区域性的小机房,一根光缆被挖断了就断服务了。支付宝机房服务的路由应该非常多,不可能只接一家运营商,即便只是一家,肯定也是多路由接入。“数据路由就像供电,来自不同的变压器和能原地。”

一位曾在汤森路透工作的阿里巴巴程序员亦向《财经》记者表示,汤森路透号称世界最大金融网络,处理全球实时金融数据,要求不能宕机,哪怕自然灾害或战争。他们机房这样建的:两条不同电信公司的光缆和不同电力公司的电缆分别从机房的两个方向进入,同一个机房的所有系统实时双备份,并建设两个不同城市(巴黎、日内瓦)机房同时实时处理相同的数据。

某大型国企网络运维人员称,从技术角度看,支付宝此次事故可能是内部应用模块出了问题,未经严格验证的应用被统一升级后,被意外触发到未知状态,会导致此类问题。

上述运维人员还表示,经他观察,支付宝DBA(数据管理人员)紧急恢复了RPO=10days的完整数据(RPO,Recovery Point Objective,复原点目标,是指当服务恢复后,恢复得来的数据所对应时间点,理想的状态是RPO=0,故障出现立即恢复,但需要极大投入),并不停地进行分段增量数据恢复,历时约2小时余,这就是应用模块的问题。

上述中国电信技术人士则分析认为,出现这种问题的可能性是,支付宝多个数据中心之间的自动流量切换机制出现问题,只能人工介入。还可能是其他三种原因:一是很有可能是支付宝遭到了攻击;二是支付宝的路由配置瘫痪了;三是支付宝的云服务器瘫痪了,亚马逊也出现过这个问题。号称最先进最安全的阿里云系统对自家业务并没支撑好。

就以上相关问题,《财经》记者询问了蚂蚁金服方面,蚂蚁金服回应称,具体的技术分析正在加紧进行,但得出结论判断还需要一段时间。

微妙的是,在蚂蚁金服更早的一份媒体回应中称,之所以花费较长时间,是在流量向支付宝位于深圳的数据中心迁移的时候,切换系统也受到了光纤断裂的影响,所以切换上花费了一些时间。这与“技术上他们可以做到更快恢复,之所以较慢是为了确保不丢数据”这一说法并不一致。

另有行业人士评价,此次事件反应出支付宝在故障倒换能力和应急反应速度上还有待提高,反应出互联网公司在应急处理能力上的普遍短板,互联金融系统的运行稳定性并不如此前所宣称那样完善。在支付宝发生大面积瘫痪事故之后,互联网企业的运维人员建立微信群对此展开了讨论。

随着云计算和大数据的逐步普及,以及人们在互联网应用越来越重的资产托付,IT技术领域普遍呼吁互联网公司改变“尽力而为”的服务承诺和网络架构,向传统电信、IT领域高达99.999%的“5个9”安全级别靠拢。

蚂蚁金服表示,支付宝将不断提升灾备切换速度,希望未来这样的切换能让用户无感知或者最小化感知。

对于此次事故带来的具体损失额度,蚂蚁金服表示,暂时无法统计。