亚马逊云科技:云上高性能计算,助力客户加速业务创新

日前,以“智算赋能·共赢未来”为主题的2021 CCF全国高性能计算学术年会(简称CCF HPC China 2021)在珠海·横琴召开。大会期间,亚马逊云科技大中华区企业级业务及行业市场拓展部总经理凌琦接受媒体专访,介绍了亚马逊云科在高性能计算领域的硬实力。

亚马逊云科技大中华区企业级业务及行业市场拓展部总经理凌琦

以极致算力服务,推动HPC民主化

HPC的应用早期主要集中在科研领域,为什么现在开始大规模地在泛商业领域落地?

对此,凌琦分析指出,泛商业领域很早就对HPC有所期待,但一直面临计算资源有限、预算不足、计算时间长、缺乏商业软件等诸多挑战,随着大数据与人工智能的普及,情况变得更加严重。当云计算与HPC相结合以后,带来了高性能、高弹性与低成本等优势,才克服了这些挑战,推动了HPC在泛商业领域逐渐得到广泛的应用。

HPC云平台固然有高弹性的优势,但是其基于虚拟化管理是有成本的,与物理的HPC环境相比,HPC云平台是否在性能上要有所牺牲?

凌琦介绍,为了让客户得到100%的算力,亚马逊云科技在在体系架构上进行了创新,通过专有芯片对虚拟化进行管理,从而把计算百分之百地提供给客户。

由于HPC的用户主要是各领域的专业人员,亚马逊云科技一直致力于通过引入基于ARM 架构芯片、HPC集群管理、数据安全与合规等科技创新,把算力、存储、网络、服务等做到极致,为专业人员解决IT方面的后顾之忧。

一家美国客户原来在美国超算中心进行气象计算,后来迁移到亚马逊云上,性能大幅提升了53%,这要涉及到特别的算法、亚微秒级延时的网络、高吞吐工作负载、容器化调度等各种服务。

F1一级方程式大赛是全球最昂贵、科技成本最高的体育赛事之一。在车辆设计、比赛场馆监控,特别是CFD 空气动力学模拟等方面需要大量的算力支持。在亚马逊云科技的帮助下,云平台上的两个汽车湍流模拟从1增加到5,仿真时间从60小时降低到18小时,算力规模可以从192 核扩展到1440 核 (C5n with EFA + Amazon ParallelCluster) ,F1官方评价与亚马逊云科技合作的项目是F1空气动力学应用历史上最具创新意义的项目。

2019年底,亚马逊云科技对全球1500个云上客户的整体应用成本、运维效率、产品上市时间等多维度进行全面分析后得出的结论为:整体上云后的成本降低27%,管理效率提升50%,同时因为很多云上应用可以自动化,使得客户可以轻松地在云上一键部署,快速扩张,快速关停,整体业务的 TTM 时间提升了37%。

在第三方调查中,HPC 连线杂志每年对全球用户进行调研,亚马逊云科技也连续3年被评为最佳高性能云计算平台。尤其值得一提的是,目前在全球高性能计算转向云平台的过程中,58%的HPC计算量处于亚马逊云上。

正是由于亚马逊云科技在云科技领域持续进行的前瞻性研究和投入,保证了其始终走在行业的前沿。

芯片创新:亚马逊云科技基于 Arm 的架构设计出 Amazon Graviton2 处理器,并将其算力通过云的形式对外提供服务。相对于传统计算架构,Amazon Graviton2 能带来最高40%性价比提升,能在更经济的情况下完成高性能计算任务。

2021 CCF 全国高性能计算学术年会上,亚马逊云科技荣获2021年度自主研发的 Graviton2 芯片及相关计算实例产品创新大奖。

丰富实例:由于高性能计算的种类众多,负载各异,对基础架构的要求也不一样,亚马逊云科技围绕高性能计算设计开发了很多种专业服务,仅算力就有超过400种实例可供用户灵活选择。

量子计算:量子计算是下一代计算能力的一个重要突破点,而量子计算服务在亚马逊云科技并非只停留在实验室,而是已经把三家技术路线不尽相同的量子计算硬件服务商的解决方案云化后,为用户提供按需购买的量子计算服务,并已应用于金融、制药等多个行业。

公开数据集:当今的高性能计算很大程度上与大数据或人工智能仿真相关,由此带来大量数据应用。除了客户自己的数据外,在建立模型以及对模型进行测试也会需要处理大量的公开的数据集或第三方的数据集。亚马逊云科技目前已经在全球提供了包括对于地球物理环境的监控数据、对海洋表面温度的数据和人类的基因数据等300多个公开数据集。

由于中国的市场和用户与国际有所不同,亚马逊云科技是否有专门针对中国用户的创新?

凌琦指出,中国正在经历大规模全面的数字化转型,在工业4.0、移动支付等各个领域有着非常丰富的应用场景和国外所没有的规模,并且在一些领域通过更多的投资已经走在了前列,未来将会有很多精彩的创新在中国率先出现。亚马逊云科技是一家长期坚持以客户需求为中心的公司,致力于深入了解客户应用的痛点,也会与积极与中国客户一起进行创新。

以金风慧能为例,风电的产生、风电厂的管理等与天气预测的关系非常密切。据介绍,WRF全流程-Weather Research and Forecasting Model是金风慧能在功率预测产品气象数值模式计算的主要工作负载,但面临着计算资源短缺的巨大挑战亟需补充。

经过多家单位的计算资源测试,并完成了x86和ARM架构下数值模式的运算实验,金风慧能最终选定亚马逊云科技ARM架构机型,每年节省了70%的成本,相同数据集的计算时间缩短了30%,C6g.4xlarge 实例16个vCPU性能达到了之前物理数据中心28核服务器的性能,在亚马逊云科技云平台上实现了WRF全流程交付,也极大地简化了金风慧能的运维工作。

GeoSoftware通过整合亚马逊云科技的高性能计算能力,可以让地球科学家在几分钟内扩展出数千数万个CPU来应对作业队列的处理工作,将复杂运算结果的取得时间从传统方式的1周缩短至3~4小时。而且NICE DCV将用户界面流式传输到客户端计算机,无需再依赖昂贵的专用工作站,为用户提供了更加便利的体验。

目前,亚马逊云科技已经广泛服务于能源、汽车、医药等各行各业的HPC客户。

积极采用可再生能源,持续提升云能效

中国基于推动构建人类命运共同体的责任与担当,以及实现可持续发展的内在要求,向世界作出庄严承诺,出台了“碳达峰与碳中和”的重大战略决策。

亚马逊云科技也提出了助力“双碳”目标实现的战略与举措。

在可再生能源方面,亚马逊承诺,2025年亚马逊的基础设施100%使用可再生能源,覆盖亚马逊的办公室、交付中心和亚马逊云科技的数据中心。

今年9月,亚马逊宣布了在中国支持的第二个可再生能源项目——位于吉林省的100兆瓦(MW)风能项目。该项目将于 2023年投入运营,预计届时每年可提供超过30万兆瓦时(MWh)的可再生能源,相当于为超过15万户中国普通家庭提供电力支持。亚马逊在中国支持的第一个可再生能源项目是去年宣布的位于山东的太阳能项目。

亚马逊作为全球最大的可再生能源企业采购商之一,已经在全球打造了232个项目,到2025年将实现全球基础设施100%使用可再生能源。

在提高云的能效方面,亚马逊云科技的基础设施比同行能效高。调查演讲结果显示,亚马逊云科技的基础设施能源效率,比受访的其它美国企业数据中心的中位数高3.6倍,主要原因是亚马逊云科技的服务器更节能,服务器利用率更高。此外,因为亚马逊云科技在设施的各个方面都采取了提高能效的措施,其数据中心也比企业的数据中心更节能。

小结

今天各行各业的用户对高性能计算需求可以说是已经变得无处不在,从以前的传统高性能计算,比如地球物理研究、石油勘探、天气预测等领域到近几年出现的基因测序、自动驾驶都有它的身影。最新一代的人工智能技术,以及大数据技术的发展,将高性能计算进一步推广到更多领域。

在计算量不断提升的压力下,为了在更高性价比的情况下,使计算能力大幅度地提高,在集群运作过程中完成大量的管理工作,越来越多的客户开始考虑如何能把高性能计算在云实现。

亚马逊云科技在全球三大超算领域盛会之一的CCF HPC China 2021上,为我们完美地展示了卓越不凡的云上HPC硬实力。