异军突起的阿里云超算:与传统超算中心共舞

超级云计算中心正在提供越来越多的超算服务。

目前,阿里云高性能计算平台已覆盖工业制造、生命科学、油气勘探和影视特效等多个行业,除了吉利和上汽等知名车企之外,还服务了流浪地球制作方MOREVFX等顶级视效企业,并在新冠疫情期间公益支持了全球健康药物研发中心(GHDDI)、中山大学等全球十多家医疗与科研机构进行新冠相关研发工作。

阿里巴巴研究员、阿里云弹性计算负责人张献涛

传统超级计算机提供的更多是专用领域的“珠穆朗玛峰”,高不可攀。阿里巴巴研究员、阿里云弹性计算负责人张献涛说:“阿里云高性能计算平台搭建的是‘青藏高原’,希望帮助更多行业用户构筑自己的‘珠穆朗玛峰’,解决他们对于高性能计算和对算力的需求。”

以“青藏高原”为底座,助力用户构建“珠穆朗玛峰”

弹性计算是构建算力的基础设施,被张献涛形象地描述为“就像青藏高原一样”。

理论上,云计算就是把上百万台的服务器构建成一台超级计算机,提供统一的计算、统一的存储和统一的网络资源,实现更好的资源调度。

依托阿里云自研的神龙架构,用户不再需要RDMA或IB网络,也无需采购硬件设备,只需要在阿里云平台发送一条命令,即可轻松构建一台虚拟服务器,或者是一个磁盘,每个磁盘都具备100万IOPS且可独立工作。神龙架构就是阿里云构建的云上超算能力的基础,在这上阿里云构建了一个超级计算机,可以是10台、100台、1000台甚至5000台的规模。用户再发送一条OpenAPI指令,就可以独享资源,非常的便捷。

据张献涛介绍,阿里云还构建了阿里云弹性高性能计算平台PaaS调度平台,通过E-HPC调度系统,用户可以模块式的方式让所有任务获得公共云上的数据库或是存储等各种能力。

阿里巴巴研究员、阿里云弹性计算负责人张献涛接受媒体采访

“弹性高性能计算平台E-HPC,搭建了云和高性能计算应用之间的桥梁。”张献涛说到,“阿里云高性能计算平台覆盖了绝大多数HPC的应用场景,可以为更多有高性能计算需求的用户提供更好的支持。”

那么,阿里云是如何做到的?

十年弹性计算探索之路

2010年5月,阿里云首个商业化的弹性计算产品ECS1.0面世,自此阿里云一直在探索未来弹性计算的核心技术方向。2014年之后,ECS产品进行了三次大型升级迭代。

  • 2014年,阿里云进行了一个技术架构的全面升级,以满足大型的互联网应用和高性能计算等业务需求,赢得了微博、12306等客户。
  • 2016,阿里云开始自研软硬件协同设计的新虚拟化技术,于2017年对外发布了首款自研神龙云服务器,彻底解决了虚拟化性能损耗这一难题,不仅拥有超越物理机的性能,还拥有虚拟机的弹性体验。
  • 2019年9月,阿里云宣布第三代自研神龙架构,全面支持ECS虚拟机、裸金属、云原生容器等,贯穿整个IaaS计算平台,并在IOPS、PPS等方面提升5倍性能。

经过十年来的不懈努力,阿里云的存储性能提升了2000倍,网络性能提升了500倍,整体算力平均每年翻一番。

目前,阿里云在全球的22个地域建立了63个大型数据中心,全球服务用户已超过100万家;在中国,80%的科技创新企业都运行在阿里云平台上。当前,阿里云高性能计算平台E-HPC已经覆盖了包括各种渲染、气象、半导体、石油勘探等行业用户。

Gartenr在最新报告中指出,阿里云的弹性计算以产品性能,稳定性和服务质量方面均超越了全球所有公司的水平位居世界第一。

可以说,阿里云重构了计算和服务模式,具备了服务全业务场景的能力。

云超算用户提供了一种新选择

有这样一家大型汽车制造企业,其业务要求业务系统能够全年365天、全天24小时高速满负荷运转,而且业务还会时常调整,这样的需求只有具备热迁移、低成本主动运维以及高可靠、高稳定性能力的云平台才能满足,传统超算是很难满足需求。

所以,云超算的问世,给用户带来了新的选择。

在阿里云高性能计算负责人何万青看来,阿里云底层的技术很好地支撑并满足了高性能计算用户的苛刻需求,即使在计算资源利用率超过90%的情况下仍能稳定运行。

传统超算中心,几乎都是国家在投入,但是这些超算中心的服务质量、性能等方面都有待提升,一方面是系统建设的速度赶不上用户不断更新的需求,另一方面,是前期巨额的投资难于收回成本,而且运维成本也在不断攀升。因此,越来越多的超算中心也在探索“超算云”的模式。

以阿里云为代表的商业公司,虽然难以建成与传统超算中心匹敌的规模,但是其按需付费、极致弹性、深入场景等一系列独特的优势,给超算领域注入了新的活力。

例如,传统超算中心建设的时候,往往针对的是客户当下的需求,当建成时,客户需求已经发生变化,而且延期交工的超算中心也越来越多。此外,传统超算中心大多是采用的是分时复用的系统,客户的应用需求在提交后需要排队等待,短则两三天,长则十天半个月。

阿里云高性能计算负责人何万青接受媒体采访

商业化的云超算优势之一是随时用随时释放,即用户成功购买后可独占资源,为石油勘探、天气预报等时效要求高的用户提供稳定的算力,资源随时用、随时伸缩、随时释放,降低使用成本。

遵从市场经济规律,云超算必须提供有领先的产品技术、便捷优质的服务,才能具备发展潜力。目前,阿里云正在积极布局生态建设,以服务好行业客户。

未来,云超算或将成为趋势。

三年斥资2000亿元,发力新基建

今年年初,阿里云宣布未来三年还将投入2000亿元,用于云操作系统、服务器、芯片、网络等重大核心技术研发攻坚,并在现有张北、河源、杭州、南通和乌兰察布等五大超级数据中心的基础上,建立应用了达摩院、平头哥等最新研究成果,在规模、算力、节能、智能化方面全面升级10座以上的超级数据中心,支持新基建发展。

云超算中心与传统超算中心共同服务客户的局面,正在形成;受益者,将是众多行业客户。