重新定义运营韧性:如何借助云计算让组织领先于日益增长的韧性需求

文/亚马逊高级副总裁兼杰出工程师James Hamilton,

当我与客户讨论运营韧性时,即在中断或压力时期保持系统运行的能力,我们常谈及过去几十年期望值怎样大幅提高。客户期望能够实现24/7的系统正常运行时间,因为他们的业务极度依赖于技术。从社交网络到电子商务、医疗保健系统、在线教育乃至国家安全,IT基础设施是运营的骨干。一旦出现故障,其后果可能会波及广泛。

当我与客户讨论运营韧性时,即在中断或压力时期保持系统运行的能力,我们常谈及过去几十年期望值怎样大幅提高。客户期望能够实现24/7的系统正常运行时间,因为他们的业务极度依赖于技术。从社交网络到电子商务、医疗保健系统、在线教育乃至国家安全,IT基础设施是运营的骨干。一旦出现故障,其后果可能会波及广泛。

设计、建造、部署和采购能够承受任何类型或规模中断的基础设施,对即使是最大的组织来说也不是资源高效的。这需要巨大的时间和金钱投资,并且需要的经验和专长并非他们业务的核心。这就是为什么越来越多的组织转向云计算。

通过云计算,组织在使用IT服务(如计算、存储和数据库)时按需支付,而不是在本地运行自己的基础设施。更重要的是,当需要更多服务器或网络带宽时,只需点击几下鼠标,而不是等待财务批准和采购周期。

云服务提供商负责确保其客户使用的IT基础设施服务——他们应用程序的构建模块——持续可用。但是,组织如何知道它可以依赖一个云提供商呢?

每个层级的韧性

并非所有云提供商在运营韧性上都采取相同的方法。例如,在亚马逊网络服务(AWS)中,我们将韧性构建进我们的技术的每一层:从我们的设施、区域、服务和软件的设计到我们的数据中心的运营方式。我们采取了与今天大多数传统数据中心完全不同的方法来处理IT基础设施。

我们独特方法和承诺的部分原因是AWS源于亚马逊。通过运营仓库和客户支持中心,运行复杂的国际供应链,以及保持一个网站每天24小时可靠运行,我们了解到持续可用需要什么。我们的成千上万的客户,如Netflix和摩根大通,也实现了不停歇的运营,AWS旨在支持这种级别的承诺,提供一个韧性和可扩展的基础设施。

区域设计

我们为客户构建韧性基础设施的独特方式之一是通过我们的区域设计。我们在全球有25个区域,包含多个“可用区”,每个可用区由一个或多个数据中心组成,拥有自己的冗余电力、网络和连接。这些可用区彼此之间的距离足够远,以减少单一事件影响可用性的风险,但又足够近,以便于需要同步复制、快速故障转移和低延迟的业务连续性应用。

这种基于每个区域许多独立数据中心的独特区域设计,有助于确保应用程序免受中断影响,如人为错误、意外流量高峰、公共设施故障、地震,甚至全球大流行。关键系统可以在全球多个数据中心运行,即使面对极端规模的工作负载也能实现韧性。例如,当Peloton、Netflix和Zoom在疫情期间经历前所未有的需求时,AWS的规模和弹性帮助它们持续运行。即使是非常大的客户也只使用了AWS全球IT基础设施足迹的一小部分。

持续创新和改进

在AWS,我们持续投资于我们基础设施的可用性,通过限制可能在系统失败时承受的最大影响,并改善恢复时间来减少失败的可能性。例如,我们现在使用小型分布式UPS(不间断电源供应系统)替换了大型、集中的第三方UPS,这些小型UPS集成到我们的服务器架中,并采用双源电力。通过用我们自己的定制解决方案替换传统的、集中的UPS设计,我们极大地减少了UPS故障的影响和维护事件的风险。

我们的分布式UPS比集中UPS更高效,具有更小的故障区域,由多个冗余组件组成,并具有冗余备份。即使发电机因服务或故障而离线,我们的客户仍受到进一步的冗余电力和备用发电机的保护。

这不仅仅是关于技术——我们还拥有支持持续改进的文化。例如,在AWS,构建服务的团队也负责运行和支持它,创建了更短的反馈循环,使他们能够更快地迭代和改进。

长期承诺

出色的运营性能是长期承诺的结果,是许多小决策和投资在彼此之上累积的结果。没有捷径。AWS全球云基础设施是最安全、最广泛、最可靠的云平台,因为我们不懈追求潜在的故障点,持续创新,以及持续改进的文化。这就是我们如何保持在增长的韧性需求之前,以便我们的客户始终能为他们的客户在那里。