2021 re:Invent印象:云计算进入硬件协同创新时代

re:Invent十周年,也是云计算发展的十年,回首十年,从IaaS、PaaS、SaaS,到应用开发方法创新,云计算发展经历了不同的发展阶段,如今,2021 re:Invent,亚马逊云科技又将云计算推入到了硬件创新协同发展“深水区”。

芯片硬件“深水区”

亚马逊云科技涉足自研芯片始于2013年与以色列芯片公司Annapurna Labs合作开发的Amazon Nitro芯片,2015年亚马逊云科技收购了该公司,Nitro芯片主要用于网卡,也可以用于连接和控制硬盘,控制EBS块存储;还可以用于卸载(Offload)Hypervisior等CPU工作负载,当然也可以用于硬件安全检查等。有了Nitro,亚马逊云科技也推出了多种EC2计算应用实例供用户选择。

顺应AI、ML计算应用的需要,亚马逊云科技推出了Amazon Trainium芯片,发布了基于Trainium的Trn1n AI服务器,与上一代P4d产品相比,通过Trn1实例训练深度学习模型的成本降低多达40%。

Trn1实例可提供800Gbps EFA(Elastic Fabric Adapter)网络带宽(比最新基于GPU的EC2实例高两倍),并与Amazon FSx for Lustre高性能存储集成,让客户可以启动具有EC2 UltraClusters功能的Trn1实例。

通过EC2 UltraClusters,开发人员可以将机器学习训练扩展到一万多个与 PB 级网络互连的 Trainium 加速器,让客户按需访问超算级性能,即便是最大型和最复杂的模型,训练时间也可以从几个月缩短到几天。

如果说网络芯片、机器训练芯片仅仅是亚马逊云科技芯片试水的产品,亚马逊云科技基于Arm架构的Amazon Graviton3自研CPU处理器就是一个具有里程碑意义的产品,也宣告了亚马逊云科技芯片版图的完整。

C7g服务器到SSD

由Amazon Graviton3处理器支持的C7g实例可将计算密集型工作负载性能提高多达25%。与Graviton2相比,Amazon Graviton3处理器为科学计算、机器学习和媒体编码工作负载提供高达2倍的浮点运算性能,为加密工作负载速度提升高达2倍,为机器学习工作负载提供高达3倍的性能。Amazon Graviton3处理器的能效也更高,在相同性能下,与同类型EC2实例对比,可节省高达60%的能源消耗。

C7g实例是云中第一个采用最新DDR5内存的实例,它提高了50%的内存带宽,从而提高了科学计算等内存密集型应用的性能。C7g实例的网络带宽也高出20%。C7g 实例支持 Elastic Fabric Adapter (EFA),允许应用程序直接与网络接口卡通信,提供更低且更一致的延迟。

除了C7g服务器之外,SSD盘是亚马逊云科技硬件协同的另外一个发力点。

全新发布的Amazon Nitro SSD固态硬盘的Im4gn/Is4gen/ I4i实例,可为I/O密集型工作负载提供超高存储性能。

通过自研的 Amazon Nitro SSD,Im4gn/Is4gen/I4i实例提供高达 30 TB 的 NVMe 存储,与上一代产品相比,I/O 延迟降低了 60%,延迟可变性降低了 75%,通过优化存储堆栈、虚拟化管理程序和硬件与Amazon Nitro 系统紧密集成,可使SSD更新交付速度更快,让客户可以从改进的功能中获益。

Im4gn 实例(现已可用)采用 Amazon Graviton2 处理器,与 I3 实例相比,性价比提高多达 40%,每 TB存储成本降低多达 44%。Is4gen 实例(现已可用)也采用 Amazon Graviton2 处理器,与 I3en 实例相比,每 TB 存储成本降低多达 15%,计算性能提高多达 48%。

无论是新的ARM芯片服务器,还是新的SSD,软件与硬件结合是一种趋势,以Open Chanel为例,更是将SSD盘的控制,上交由服务器CPU来完成,从而最大程度降低功耗、提高效率。云计算本质是对资源效率的追逐,因此当现有硬件资源得到充分挖潜之后,未来发展的空间就在创新硬件,GPU、AI芯片如此,新的Gravtion 3也是如此。

通过硬件的创新,亚马逊云科技也跻身ARM服务器、SSD盘硬件供应商。实际上不仅如此,阿里云、腾讯云都有相应的服务器、存储硬件产品。但在商业模式上,云服务商更多以云服务方式出现,并没有单纯以硬件产品供应商方式示人,他们对外可以提供硬件产品,但并不定位在专业硬件厂商,

云服务商的硬件与云服务相辅相成,这也为上次SaaS应用提供了新的IaaS层硬件支撑,以SAP HANA为例,亚马逊云科技Gravtion所提供的新特性就得到SAP HANA的认可,实现逐步运营和性能的提升。

超越产品服务的创新

如今,亚马逊云科技在25个地理区域建立了81个可用区,并计划新建9个区域和27个可用区,有14个本地扩展区域、17个Wavelength区域,有108个Direct Connect光纤直连站点,有310个边缘站点和13个区域缓存站点。这些区域将包括数据中心、Amazon Outposts、IoT 服务、Snow 家族服务、Amazon Ground Station在内的数千种云服务,用于提供AI、ML、大数据、IoT、5G等应用,可以说,现实中的有的IT应用都可以在亚马逊云科技找到相应的服务,颗粒度更细,效率更高,这是一个高度整合、灵活自由选取的平台。

但是从应用创新的角度来看,这些服务所扮演的实际是一个集成开发环境 (Integrated Development Environment ,IDE)或者说是 “工具库”角色。“就像盖房子一样,这些云服务提供不是一个预制好的房子,而是给用户一个巨大的工具箱,可以挑选你们需要的工具,开发自己的软件。”“在亚马逊云科技的信念中,我们认为客户是创造者,最懂自己业务,也是真正知道软件应该如何开发的人,就是用户自己。”

但是要用好这些工具或者服务,对人的能力和知识都有一定的要求,有人能够DIY,制造自己需要的产品,但是更多的人还是希望跨越DIY的过程。

为了帮助客户最大限度实现数据价值,除了千方百计降低云服务的使用的门槛。亚马逊云科技与行业领导者的结合,也在不断推动行业的进步,如亚马逊云科技与高盛合作推出的面向数据的金融云(Financial Cloud for Data)服务,与汽车制造商合作推出的数字孪生方案、Amazon IoT FleetWise数据管理方案。

小结

都说“变是永远的不变”,这很好印证了re:Invent十年发展,从产品技术到服务,在从云服务到硬件产品创新;从IT产品云服务提交,到行业应用创新交付,这是一个螺旋式上升的过程,需要我们能够跟上云计算发展的进程变化。