阿里云马劲:更好的稳定性是永恒的命题

“关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么两个小概率的问题一起发生,造成保护失效?为什么做了测试演练真正发生问题的时候还是踩坑?”

在今年的杭州云栖大会19号下午的主论坛上,阿里云专有云事业部兼企业应用事业部总经理马劲发出上述三连问。

这一连串问题都关联到一个核心词:稳定性。马劲表示,阿里云专有云和公共云同根同源,拥有和公共云一样的稳定性,简单来说,专有云就是阿里云的一种部署形态,相比公共云部署在机房,只是部署地点发生变化,整体的架构实现和使用体验和公共云保持一致。

基于公共云架构的专有云平台

很多大企业希望把公共云上的能力完整部署在自己的数据中心,也就是将专有云和公共云组成混合云,既能够很好应对自己对数据主权的需求,同时又能够处理好弹性的场景。

“在数据中心领域,我们提供了完整的专有云,就像一台云计算机装到客户的数据中心,让整体使用非常便捷。”

过去通过License模式使用专有云,在现场还发布了一种新的收费模式:订阅模式,可以让企业选择更加灵活,并且成本也下降了。

过去四年,阿里云已经把专有云部署到了金融、能源、公共服务等行业,提供了60多种云产品,最大单集群规模达到10000。

混沌工程:锤炼产品稳定性

为提升系统稳定性,阿里云引入了“混沌工程”理念,在仿真的生产环境中做千倍高频的异常注入,对不符合预期的系统反馈不断优化,从而持续打磨稳定性。

马劲在现场解释了混沌工程(Chaos Engineering)的原始概念:在进行每个实验之前工程师会提出一个导致系统失效的假设情景,进而设计一个实验去引发或模拟该情景,并以受控、自动化的方式开展实验。通过观测系统的反馈,对不符合预期的结果进行深入的分析并持续的改进。

对于阿里云来说,更好的稳定性是永恒的命题,引入混沌工程这一理念再配合上不断的实践则将是最好的证明该命题的方式。

百种异常现场随机注入破坏系统

去年的杭州云栖大会上,专有云做了断电演示,这次马劲又带来了云原生架构下现场随机破坏。

在场外,搭建了专有云“企业号”空间站现场数据中心,该数据中心由8大品牌服务器搭建,模拟了客户真实的复杂生产环境,同时现场直播应用便搭载在该数据中心的系统上,在注入异常后将直观的通过观察直播是否卡顿来判断专有云系统是否真的稳定。

目前,阿里云异常库中有超过12600种异常,现场提供了100种随机异常,让观众随机选择,最终被选中的是“ECS云产品网络传输包乱序比例陡增”和“SLB云产品网络传输时延陡增”。

在分别注入这两个异常场景后,直播视频仍然保持顺畅毫无卡顿。马劲解释,这是因为在日常工作中,已经通过注入这类异常建出了“专有云免疫系统”。

此外,他还演示了极端环境下的超级异常——“核心ECS集群局部网络异常且另一台ECS计算资源饱和”。

这个异常模拟了业务高峰期服务器已经超高负载时的网络故障,比如双十一的时候,这类情况极易引发系统雪崩,一旦雪崩恢复时间超过几小时甚至几天。不过,现场在出现卡顿、花屏以后的十几秒便恢复正常。而这背后主要是负载均衡的快速隔离及弹性伸缩服务智能资源分配及时发挥了作用。

“在真实业务场景中,故障难以避免,阿里云将杜绝冷漠和惰性,帮助客户提前发现各种问题。”