Aurora成首个部署英特尔Max GPU的超算,峰值性能突破2 百亿亿次

2023年6月25日,英特尔宣布,Aurora超级计算机在阿贡国家实验室完成部署,可提供 2 Exaflops 的 FP64 (双精度)算力,将成为全球首台峰值性能可达每秒计算 200 亿亿次的超级计算机,性能可持续稳定在1 Exaflops 的 FP64的水平。

Aurora是第一个部署英特尔数据中心GPU Max系列的超级计算机,也是世界上最大的基于至强Max CPU的系统,同时,也拥有目前世界上最大的GPU集群。

Aurora超级计算机是英特尔、慧与(HPE)和美国能源部(DOE)的合作项目,设计目标是发挥高性能计算机在模拟、数据分析和人工智能方面的巨大潜力。

Aurora的各项参数都非常惊人。

2个至强CPU Max和6个英特尔数据中心Max GPU

Aurora拥有10624个刀片服务器节点,每个刀片配备两个具有HBM的英特尔至强CPU Max系列处理器,还有六个英特尔数据中心Max系列GPU。

也就是说,Aurora有21248 个英特尔至强CPU Max系列处理器,提供总计11万个核心。还有63744个用于处理AI和HPC工作负载的英特尔数据中心Max 系列 GPU。

英特尔数据中心Max系列 GPU主要用于高性能计算和AI场景,测试结果显示,它在实际的科学和工程工作负载上优势明显,如在OpenMC上的性能是AMD MI250X GPU的2倍,并且,它还可以近乎线性地扩展到数百个节点。

英特尔Xeon Max系列CPU是唯一一款将HBM放到了x86处理器上的处理器,在许多实际的高性能计算工作负载上,比如地球系统建模、能源和制造领域 ,比竞争对手的性能高40%。

存储方面。Aurora集成了超过1024个存储节点,存储系统使用的是英特尔开源的分布式异步对象存储(DAOS),提供220 PB的容量,31 TB/s的带宽,并利用了HPE Slingshot高性能网络。

高性能的存储对于处理涉及大量数据集的工作负载,如核聚变研究、科学工程、物理模拟、天气预测和其他任务都非常有用。

从应对气候变化,到研发治病药物,科研人员都需要动用大量计算资源。Aurora可用于满足高性能计算和AI的需求,作为推动科学技术突破的关键工具。

预计今年TOP500榜单,Aurora将占有重要的一个席位。

“在进行验收测试时,我们将使用Aurora来训练一些大规模的用于科学研究的开源生成AI模型,” 阿贡国家实验室副实验室主任Rick Stevens说道。”Aurora拥有超过60,000个英特尔Max GPU,一个非常快的I/O系统,还有一个全闪存的大规模存储系统,是训练模型的理想环境。”

Aurora所使用的刀片服务器各个部件,从处理器、内存、网络再到冷却技术,都非常先进。每台刀片包含两个英特尔至强Max系列CPU和六个英特尔数据中心Max系列GPU。

此前,Xeon Max系列在Sunspot上展示出了很好的性能表现,Sunspot是具有与Aurora相同架构的测试和开发系统。开发者可以利用oneAPI和AI工具来加速HPC和AI工作负载,并提高代码在多种架构上的可移植性。

刀片服务器的安装也是一个非常精细的活儿。

图自Auora官网:使用专门的机器来安装刀片

每个重达70磅的刀片服务器都需要专用的机器吊装到冰箱大小的机架中。Aurora有166个机架,每个机架可容纳64个刀片,整套系统占地大约两个专业篮球场的空间。

部署完成后,科研人员就能将应用从测试平台Sunspot上迁移进来,将应用放置到整个系统上来运行。

随着GPU在高性能计算和AI方面的优势逐步显现,英特尔开始发展GPU技术路线。

2022年底和2023年初,英特尔发布了数据中心 GPU Max系列,开始向阿贡国家实验室交付,如今正式完成了安装。

Aurora贡献了好几个里程碑,它是工业界首台性能超过2 ExaFLOPS的超级计算机,也是第一台基于英特尔的ExaFLOPS级别的超级计算机,标志着超算时代的一个重要里程碑。