性能提升160%,成本下降50%:从阿里云ECS到神龙架构的十年升华

2019年双11,天猫淘宝成交额2684亿元;期间订单创建峰值高达54.4万笔每秒,是2009年第一次双11的1360倍。

为支持这一场购物狂欢节,阿里巴巴花了一年的时间将部署在线下数据中心的上万个应用、数以十万计的服务器、数百万容器迁移到公共云平台。阿里巴巴集团CTO、阿里云智能总裁张建锋称阿里云把“最要命”的系统全都放在云上。

让众多“最要命”的系统保持正常运行的神龙架构,添加了这样一副新面孔——9月刚刚在杭州云栖大会上发布的第三代神龙架构。

“在双11高流量高负载的场景里,神龙架构表现突出,除了稳定性经受住了大考,性能方面的优势也非常大,而且整体成本优化能力也大大提升。”7月15日,阿里巴巴集团研究员、阿里云智能弹性计算产品线负责人张献涛在2020阿里云弹性计算产品年度发布会上对记者们说。

阿里巴巴集团研究员、阿里云智能弹性计算产品线负责人张献涛

众所周知,阿里巴巴在每一项产品和解决方案面市之前,都会在公司内部进行验证,确保为客户提供最完美最成熟的服务。这一过程,始于公司成立之初,从十年前开始,持续至今。

值得注意的是,第三代神龙架构性能暴涨160%,但成本却有接近50%的下降。更高的性能,更低的价格,阿里云的竞争优势一目了然。

服务客户的十年,也是阿里云更懂业务场景的十年

过去十年来,你感觉到了生活中哪些不同寻常的变化?

10年前预订快餐需要拨打,如今只需动动手指外卖即可到家;10年前双11购物只能够支撑5000万元的交易,去年的双11已经支撑到了2684亿元;10年前买车票要到火车站车彻夜排队,如今在12306 APP上轻松完成,即使是春节抢票也不再迟缓;10年前,到政府机会办一件事情需要跑很多次,如今,只需要跑一次就解决所有的问题……

“这些社会效率的提升,背后都是云计算在发挥着巨大的作用。”过去15年间一直工作在云计算的第一线,经历了云计算从无到有、从弱到强这样一个过程的张献涛回忆说。

云计算是一系列的产品和服务组成的新的计算模式,其最基础最核心的功能就是弹性计算服务。阿里云在2010年的5月10日首个商业化的产品就是弹性计算产品,即ECS1.0;借助ECS1.0从服务中小企业的站长开始,到2015年发布ECS2.0服务12306 APP这种极具挑战的业务场景,再到2017年发布神龙架构、承担双11这种世界级压力,到今天阿里云以22个地域构建的63个大型数据中心,服务起了全球互联网、零售、制造、政务、金融等上千万家行业客户;而在中国,超过80%的科技创新企业都运行在阿里云上。

技术的发展也改变着客户的观念。用户从早期被推动上云,变成了主动上云,尝到了甜头后在性能、稳定性、弹性等方面的诉求也与日俱增,这既成为阿里云引入人工智能、大数据等最新技术,不断进行产品更新迭代的动力,更是阿里云不断发展和成功的动因。

10年的变迁之后,可以说阿里云更懂业务场景,和客户之间的距离其实更近了。

洞悉市场三大诉求,彻底消除客户后顾之忧

作为更懂业务、与客户距离更近的体现,是阿里云对客户的诉求的理解也逐渐清晰起来。张献涛表示,客户至少在业务的永续、极致的性能和对资源极速弹性需求对云计算充满渴求。

业务的永续,意味着业务运行永远不停机。

在数据中心时代,传统企业经常由于各种各样软硬件的故障饱受宕机的苦恼,他们对云计算寄予厚望。云计算的确消除了他们的后顾之忧——过去十年服务用户过程中,阿里云在全球配置了数百万台服务器,汇集了大量硬件故障相关的信息,通过和达摩院的算法科学家的合作,借助机器学习和人工智能等先进的技术准确预测即将发生的故障,提前将客户的业务以热迁移的模式迁移到健康的机器上,防患风险的发生,预测准确率到达99%以上。

极致的性能:业务迁云之后,业务的性能会变得更好吗?

为了能够更加追求更加极致的计算性能,阿里云自研了神龙计算平台、盘古存储平台和洛神网络平台、以及软硬一体化的深度优化;自研服务器、交换机、含光芯片、与英特尔联合深度定制的CPU。

自主品牌的操作系统Alibaba Cloud Linux 2.0 LTS,在云平台之间形成更好的合力,释放出来更极致的性能;在计算层面,去年阿里云参加斯坦福大学的DAWNBench图片识别竞赛,整体优化的计算获得了4项世界第一;在网络和存储方面,阿里云的性能也都是业界领先。

对资源极速弹性的诉求:既要承受波峰时对平台算力急剧提升的需求,也要满足在波谷时对平台算力大幅分流造成的影响。

例如,微博经常需要弹出数倍甚至数百倍于平时的算力去应对热点事件,在数分钟之内需要提供数十万甚至上百万核的算力。这在IT资源的扩充建设以月为周期提供的传统时代是很难完成的。经过深度优化,Alibaba Cloud Linux 2.0整个实例的交付仅需11秒,而使用弹性容器实例(ECI),仅需一秒钟就可以为客户去交付所需的算力。

除了上述三大诉求,阿里云还推出了自助服务。

不是所有的客户都会提出自助服务这个诉求,但在和客户的沟通过程中,阿里云发现他们经常会遇到这些方面的挑战。为此,阿里云也准备了相关的解决方案:在迁云阶段,一键式的迁移上云服务中心可帮助客户让线下的业务上云轻而易举;在交付部署阶段,多样性的架构加资源编排,为客户业务整体平稳发展奠定良好的基础;在运行阶段,ESS这样的服务可帮助客户进行计算资源的弹性容量伸缩,随需而动;在运维阶段,自主诊断服务提供了自动化的运维编排能力,让客户免人力运维,为业务在云上的发展保驾护航。

张献涛表示,10年之内,阿里云重构了计算的服务模式,具备了服务全业务场景的能力。

基于第三代神龙云服务器打造的ECS六代增强型实例全球开售

基于第三代神龙云架构的服务器,阿里云构建了新一代的ECS产品家族,其中包含了第六代增强型实例、第七代高主频实例、内存增强硬实例、GPU和NPU云服务器、超级计算集群以及非易失性内存APE实例和可信云实例。

在7月15日召开的发布会上,张献涛宣布,基于第三代神龙云服务器打造的ECS六代增强型实例全球开售。

第三代神龙云服务器为ECS带来哪些方面的价值?张献涛解释说,ECS第六代增强型实例由三部分组成。

在计算方面,自研了轻量级的Dragonfly Hypervisor,摆脱KVM、XEN一类传统虚拟化架构,Dragonfly Hypervisor,不仅资源占用少,在虚拟化的效率提升方面也非常明显,在计算的抖动性方面可以降到百万分之一的级别;在存储方面,第六代增强型实例全系标配ESSD云盘,具备单盘100万IOPS的能力,超过第二名8倍以上,每秒吞吐量可达到4GB,每一次快照备份可以在5秒钟之内实现,此外,其单路读延迟最低200微秒,友商最好的水平也超过300us,写延迟能力100us,远胜于其他云厂商最优的400us;在网络能力方面,最强可以提供单实例2400万PPS的转发能力,业界最好的水平也才1000万IOPS,每一个数据包最低延迟为21us,而其他厂商最好的水平也超过30us。

除了单点性能,E2E端到端的性能方面,同样选择主流的三家云厂商加载相同规格的实例对比,在MySQL场景,阿里云性能最高领先190%,Nginx场景最高领先86%,Redis场景最高领先103%。

显然,无论是单向的性能还是综合的性能,第六代增强型实例比业界其他云厂商更具有很强的竞争力和优势。

在张献涛看来,第六代增强型实例是集大成者,它继承了第三代神龙云服务器的几乎所有的优点。

通过第三代神龙架构,阿里云全面提升了神龙云服务器的服务能力,自研的软硬一体化的架构,大幅度提升计算效率和网络存储方面的服务能力。

“神龙服务器的整体性能之所以能暴涨160%,得益于在架构上能更好地支持四路的服务器,吞吐能力的提升也是一个重要的因素。”张献涛说。

第三代神龙云服务器不仅提供全计算场景的覆盖,作为云原生的最佳载体,以极致性能、灵活弹性以及多计算形态,开启了超性能时代。

不断推陈出新,神龙架构迎接新的10年

回顾过去十年,阿里云和客户一路携手同行,通过不断磨合,打造了今天具有竞争力的弹性计算的产品序列;阿里云不仅深入了解客户的需求,而且更加懂得创新的内涵和价值。

展望下一个十年,阿里云势必将继续着眼于客户的产品需求,加大在技术创新、产品资源方面的投入;预计增加了对本地盘支持、充实更多丰富功能的、第四代神龙架构也会很快亮相,一代一代新品的问世,在阿里云服务客户能力进一步提升的同时,也不断优化客户的业务水平,为整个社会创造更大的价值。