2022年5月30日,美国橡树岭国家实验室的Frontier超级计算机以1.1EPlop/s(百亿亿每秒)的稳定运行速度首次登顶超算ISC Top500榜单。
“我在一个偶然的情况下成为LINPACK基准测试程序开发者的。”2022年12月12日,超算ISC TOP 500基准测试的LINPACK软件包开发者,美国田纳西大学的教授和国家橡树岭国家实验室专家Jack Dangarra先生在以线上方式举行的第十八届CCF全国高性能计算学术年会(以下简称CCF HPC China 2022) 上回顾了这一基准测试程序的问世过程。
偶然的LINPACK基准测试程序开发者
在上世纪70年代,美国田纳西大学工作的Jack Dangarra教授开始动笔编写一个基准测试,他的意图是让计算机通过线性运算求解一个方程组,这个基准测试软件包对计算结果进行计时,最终根据解决问题所花费的时间对计算机速率进行排名或评级。
1979年在LINPACK用户指南的附录中,Jack Dangarra教授发布了第一个基准测试报告。从那时起,他就一直在收集信息。第一个基准测试报告的计算机覆盖了多个计算机,从CRAY-1到DEC PDP-10。
后来,运行时间被转换为浮点执行速率。1977年排名时算力最强的计算机是美国国家大气研究所的CRAY-1,它的运算速率达到了14MFlop/s。
从那以后,LINPACK基准测时经历了许多变革和改进。不久后,Jack Dangarra教授发现Erich Strohmaier博士和来自德国的Hand Meuer也根据性能峰值变比了计算机排名。双方决定把两个列表整合在一起。
这就是全球超级计算机TOP 500名排名的来源,并成为全球最快超级计算机的权威评判标准。
该榜单每年发布两次,通常在每年的11月和6月发布。最新的名单发布于2022年6月。
“您可以在任何计算机上运行这个基准测试。”Jack Dangarra教授用他的那台苹果Mac笔记本电脑对基准测试市场问题求解的运行结果是166GFlop/s。这意味着什么?这台笔记本电脑实际上比1993年前排名第一的超级计算机还要快——1993年排名第一的是一台Think Machines的CM-5,这是一台带有1000个处理器的超级计算机,当时在Los Alamos国家实验室用于核武器的设计。
“现在性能相当的这台笔记本电脑却只用于用收发邮件或演讲。”Jack Dangarra教授风趣地说。
全球最快的超级计算机Frontier
在2022年6月发布的排名前十的超级计算机名单中可以看到,全球最快的超级计算机Frontier由HPE组建成,它使用了AMD处理器和AMD加速器,由CRAY制造的互联芯片组连接,这就是用来运行基准测试的处理单元。
要指出的是,1.1EFlop/s的速度是理论峰值(2EFlop/s)的55%。这意味着还有很大的性能提升空间。
Frontier比排名第二的日本超级计算机“富岳”(Fagaku)整整快了2.49倍;前十的机器的性能超过了TOP 500算力总和的一半,500台超级计算机的算力综合约为4.4EFlop/s。
要想进入排名前十,速度至少要取得1.52PFlop/s。
可以看到,美国有5台机器进入了前10名。
中国有两台机器进入前十,一台是神威太湖之光,一个是天河二号。太湖之光使用的是中国自主研发设计的处理器,天河二号使用的是英特尔处理器和中国设计的加速器,所有这些超级计算机都采用了定制互联芯片。
排名中还有芬兰和法国的机器也是首次跻身榜单前十,其性能表现出色,给人留下深刻印象。
Jack Dangarra教授对Frontier念念不忘——毕竟——他是Frontier所在的橡树岭国家实验室杰出一员。
Frontier占地面积约有两个网球场那么大,大约有773万个内核,由9408个节点组成,每个节点有一个AMD EPYC 7A53 CPU和四个 AMD Instinct MI250X 加速卡组成,这台超级计算机上有37000个加速器。这些GPU被用来进行加速和提升性能。在超级计算机中,98%的性能来自GPU,CPU本身对性能的贡献很小。
Frontier的性能高居榜首,其运行功耗也相当厉害——已经达到了30MW。1MW是什么含义?
“设想一下,如果我的房子里一年消耗1MW的电量,我将收到100万美元的账单。所以运行这些设备的成本是非常昂贵的。”Jack Dangarra教授说。
昂贵的不只是用电成本:Frontier采用的是一个异构的计算环境,一般在处理器和商用GPU上运行,因此各部件之间的通信成本是非常昂贵的。
Jack Dangarra教授提醒说,在应用Frontier的时候要始终意识到这一点:当我们进行计算时,要尽量降低通信成本。
超级计算机以EFlop/s为单位,什么是EFlop/s?
浮点运算是64位浮点数的加法或乘法,这就是通常所说的浮点运算或Flop/s。一个EFlop/s是每秒100亿亿次浮点运算或者每秒10的18次方浮点运算。
如果让全世界的每个人每秒计算一次,那么需要四年的时间才能完成一台EFlop/s级计算机一秒钟内可以完成的运算。超级计算机实现的就是这样的算力。
值得注意的是,使用较低的精度,可以获得性能上的提升。
也就是说,如果使用16位浮点运算取代64位浮点运算,那么Frontier性能可以达到11EFlop/s。
中国与超级计算机:最大的消费国和生产国
“中国是超级计算的最大消费国和生产国,目前还有两台E级超级计算机!”Jack Dangarra 语出惊人,看得出他对中国在超算领域的快速发展密切关注。
中国是超级计算的最大消费国和生产国,从TOP 500排名中可以看到这一点;英特尔处理器占了最大的份额,排名前500位的超级计算机中有78%采用的是英特尔的处理器,AMD占据19%;从架构来看,英特尔和Amd都是x86架构,在超级计算机的TOP 500名中占据了97%的份额。
在各个国家的超级计算机数量中,中国拥有最多的173台超级计算机,美国第二,共128台,其后是日本、德国、法国。中国不仅是消费最多的超级计算机,还制造了最多的超级的计算机,主要的中国的公司是inspire、曙光和联想。
有传言说中国有两台亿级超级计算机,广州有一家被称为海洋之光的,采用的是申威处理器,据称这台机器的运算速度超过了1EFlop/s,但他们还没有将结果提交给基准测试结果。
“我们是知道有这台机器的存在的。因为已经有科研人员根据在这台超级计算机上进行的研究发表了论文并在2021年获得了一个非常著名的戈登贝尔奖。他们就是使用海洋之光系统开始的计算。”Jack Dangarra说。
“在天津,还有另一台机器使用了中国自研的处理器和加速器的超级计算机。”Jack Dangarra教授继续抖包袱:“我们认为它在基准测试上的表现也略有超过1EFlop/s。但这些结果还没有正式提交给TOP 500排名。这很容易做到,但他们还没有结果。”
改变超级计算机的趋势
今天,人们拥有获取数据的手段越来越多,尤其是通过互联网可以收集数据,数据越来越丰富,有力地促进了机器学习和人工智能的研究,特殊的硬件也在有效地解决各个问题之中。
人工智能包含了丰富的构想和概念。机器学习是人工智能的一种,自然语言处理、专家系统,视觉、语音、智能规划、机机器人都适用于人工智能这个大保护伞下,研究深度神经网络。
越来越多的人工智能应用于计算科学应用方向,比如在气候研究、生物学、药物发现、材料开发、高能物理学以及宇宙学中,真正增强了科学发现的能力。
1997年,第一台Terascale超级计算机诞生,到2008年,第一台petascale规模机器问世,大约11年间,在性能上有了三个数量级的提升。如今,人们花了14年时间将性能提高到新的水平,也就是新的三个水平和量级。
未来会发生什么、要花多长时间才能达到下一个三个数量级——zetascale?
Jack Dangarra教授的演讲中满是对未来的探索:“我猜应该超过14年。时间会证明一切。”
他还谈到了“HPCG”,这个在Linpack基础上进行开发的基准测试将更适于超级计算机在新时代更多不同场景,比如,用于求解三维偏微分方程。今天排名第一的超级计算机是日本的富岳,它在这个基准上达到了16PFlop/s,这是理论峰值性能的3%。显然,这个基准展示了一个不同水平的性能。
在Jack Dangarra教授眼中,这意味着,有效利用机器的算法和软件,还有很多改进的空间。
后摩尔时代,未来的高性能计算将如何发展?
“改变超级计算机的,除了基准测试、软硬件还有人工智能和机器学习。”Jack Dangarra教授指出。
目前,为超级计算机搭建的架构采用的是CPU和GPU组合,未来可能会在这一基础上进一步扩展,不仅有GPU,有机器学习设备,还会有神经系统,以及量子计算技术,甚至光学计算都会加入进来,帮助解决多种计算问题的综合。
“未来的系统可能会由很多这样的部件组成,作为用户,你可以为你的特定工作组合、应用程序等拨号将其加入到你的配置中。”Jack Dangarra教授说。
高性能计算在不断变化。从标量开始,发展到了向量计算,后来又有了分布式计算。对于加速计算,今天人们使用混合浮点精细度来帮助这些计算。
Jack Dangarra教授表示,人们历经了三场计算机革命,一场是高性能计算,另一场是深度学习,第三场是边界或人工智能计算,软件和算法在某种意义上紧随硬件之后。
一提到硬件,人们往往就会想到,硬件厂商开发出先进的设备,而软件和开发人员就不遗余力地发掘使用新硬件、新计算系统的各种方法,然后用接下来的两三年时间来解决计算问题,就像重复罚款一样。
足够的空间驱动计算机性能的提升,并且会提升越来越多。
Jack Dangarra教授于2022年10月13日荣获美国计算机协会(ACM)颁发的 2021 年图灵奖。图灵奖常被称作“计算机界的诺贝尔奖”。
此前,Jack Dangarra教授曾于2014年11月6日在HPC大会上发表主题为《Algorithmic and Software Challengesat ExtremeScales》的报告,探讨了High Performance Linpack(HPL)和真实的应用性能之间的缺口,以及高性能计算遇到的挑战和未来趋势。