被能耗打败 “走鹃”退役后转做测试

世界上第一台浮点计算性能超过千万亿次的超级计算机叫什么?世界上首个混合架构的超级计算机叫什么?答案都是“走鹃(Roadrunner)”。“走鹃”于2008年由IBM开发,组装于阿拉莫斯科学实验室,耗资 1.25亿美元,占地 60000 平方英尺,总重 500000 磅,曾经三次成为超级计算机500强冠军。

五年后,“走鹃”正式停止运作,宣布退役。或许很多人无法相信自己的耳朵,耗资如此巨大,当年风靡整个超算界的冠军居然这么快就要退役了!这其中的原因究竟是什么?

首个突破千万亿次的超级计算机“走鹃”

在讨论英雄为何退役之前,我们有必要看一下他的基本资料:“走鹃”使用 fedora 操作系统,混合使用 PowerPC 系列处理器和 AMD 六核处理器。它采用一种被称为“TriBlades”的混合式架构——将一片装有 2 颗 Opteron 双核 CPU 和 8GB 内存的 LS21 型刀片服务器以及 2 片各载有两颗 PowerXCell 8i 处理器和 8GB RAM 的 QS22 型刀片服务器合并,插在一片 PCI-Express 8x 的扩充卡板上组成。

一组 BladeCenter H 机箱中可容纳3 套 TriBlades ,一个机柜可被放入四组 BladeCenter H 机箱,共有 296 个机柜,也就是说整套“走鹃”系统包含 6912 颗 AMD Opteron 双核 CPU 和 12960 颗 PowerXCell 8i 处理器,内存空间共有 114TB,存储容量将近109万TB。

在5年的运行中,Roadrunner是美国国家核安全管理局(NNSA)先进仿真和运算项目的“主力”,它为核武器储备管理进行仿真。据 NNSA的声明称:“Roadrunner为核武器储备管理进行例证:一个卓越的团队整合复杂代码和先进计算架构,确保安全、可靠、有效的威慑。”

除了监测核武器任务,Roadrunner还协助描绘爱滋病基因树映射,模仿宇宙大爆炸,帮助科学家理解暗物质。

被能耗打败 “走鹃”退役后转做测试

事实上,Roadrunner仍然是全球最快的30台超级电脑之一(目前排名第22位),为什么速度仍然排名靠前的“走鹃”却要面临着退役的命运呢?

笔者认为,当年的超算英雄——“走鹃”退役最主要的原因在于能耗太大。据了解,“走鹃”要达到每秒1042万亿次的浮点计算性能需要2345千瓦的功率,而相比之下,超级计算机排行榜前五名之一的德国于利希研究中心的IBM Juqueen超级计算机达到每秒4141万亿次浮点计算性能只需要1970千瓦功率。由此可见,在经融危机和能源危机的双重压力下,“走鹃”不得不踏上退役的道路。

阿拉莫斯科学实验室的研究员表示,实验室未来的超级计算机需要比“走鹃”具备更高的每瓦性能,而且在操作和存储海量数据方面都要更有优势。

随着GPU等新的芯片技术的出现,高性能计算机的每瓦性能大幅提升,Roadrunner已经落后了。目前位居超级计算机排行榜第一位的美国橡树岭国家实验室配备的Titan电脑,运算速度达每秒17.59千万亿次。Titan由Cray制造,它包括18688个节点,每个节点有16颗 AMD Opteron处理器和1颗Nvidia Tesla GPU。

需要澄清的是,“走鹃”退役并不是要被拆解成碎片,研究人员将会继续在走鹃上进行一些测试实验,寻找更优的操作系统压缩方法、优化数据路由等。