细说IBM基于Power的蓝色基因/Q前世今生

虽然基于GPU的超级计算机似乎令每个人感到惊喜,但IBM仍然坚持自己基于Power的多核“蓝色基因”(BlueGene)和“蓝水”(Blue Waters)大规模并行超级计算机,提升其性能达到20 petaflops的区间。

“蓝水”大规模并行超级计算机采用Power7处理器、新的交换和互联技术,是IBM在SC09大会上曾经引介的一款高密度封装。此外,我们还报道了采用GPU的iDataPlex定制刀片服务器以及即将上市用于IBM BladeCenter刀片服务器的GPU扩展刀片,这款产品将在12月上市,也是特别投标产品。

但是在总功耗方面,由大量嵌入式PowerPC处理器核心组成的蓝色基因/Q超级计算机仍然是未来两年IBM最大也是最好的高性能计算系统。

IBM早在2009年2月向美国能源部出售代号为“Sequoia”的蓝色基因/Q超级计算机,就像目前蓝色基因/P系统已经加速生产。但是IBM并没有提供更多该架构的详细信息,只表示它的一个机柜内封装了160万个核心,可配置1.6PB的存储,峰值性能达20 petaflops,功耗为6.6兆瓦。该设备将被安装在劳伦斯利弗莫尔国家实验室(Lawrence Livermore National Laboratory),该实验室曾采购了首台试验性蓝色基因/L超级计算机。

IBM在SC10上展示了蓝色基因/Q超级计算机的一个计算节点和原型机的I/O,这也是IBM首次展示蓝色基因/Q的系统组件,该系统将被安装在位于纽约的沃森研究中心。

要想了解蓝色基因/Q,你必须把它与上一代蓝色基因系统及其处理器进行对比,看一看为什么IBM仍然相信蓝色基因系统提供最好的每瓦性能。

最初的蓝色基因/A系统主要是基于一些早期的并行计算设计——由IBM与哥伦比亚大学Brookhaven National Laboratory在20世纪90年代初早期合作开发的,旨在让QCDSP大规模并行设备能够使用数字信号处理器做量子色动力学计算。

在这之后,名为QCDOC的设备取代了DSP,采用嵌入式PowerPC处理器,将64个计算节点集成到一个电路板上,通过专有的背板互连节点。

在1999年12月,IBM投入1亿美元创建原始的蓝色基因/L系统,旨在解决大量蛋白质折叠难题。两年之后,LLNL发现这种设备可用于模拟核武器,并得到了这个原型机的第一笔订单。

到2004年秋季,一台蓝色基因/L系统的原型机成为了当时全球最快的超级计算,采用8个蓝色基因/L机柜和1024个计算节点,持续性能可达36 teraflops。该设备经过多次升级,现在已经达到充分系统配置,包括65536个计算节点和1024个I/O节点(都是基于32位PowerPC处理器)。

蓝色基因/L曾经连续4年稳居高性能计算TOP500榜首位置。该系统是基于单核32位PowerPC 440处理器(主频为700MHz,一个模片封装了2个核心,有1个共享L2和L3缓存)。每个核心有2个浮点单元、内存控制器、片上千兆以太网接口、以及专有的互连可执行3D环面互连。

2005年首个蓝色基因/L安装成功,经过多次升级之后,配置了131072个核心、32TB总内存、峰值性能为367 teraflops、Linpack测试的持续性能为280.6 teraflops、功耗大约为1.2兆瓦。该设备采用空气冷却的方式。

IBM目前在售的大规模并行系统是蓝色基因/P,其芯片上配置了4个850MHz PowerPC 450核心,另外还有增强的10Gb以太网控制器。这些PowerPC 450仍然是32位的。

每个蓝色基因/P节点可支持2GB主内存(每个核心是512MB),3D环面的带宽为5.1GB/sec,一个节点中最近两点之间的MPI点到点延迟在160纳秒~1.3微妙之间,也就是说,带宽提高2.4倍,延迟降低20%。

蓝色基因/P的聚合网络节点带宽为每端口1.7GB/sec(是蓝色基因/L的2.4倍),每个节点有3个端口,与其他节点的通信延迟为2.5微妙。选配的10Gb以太网将蓝色基因/P节点与外部连接,并且有一个千兆以太网用于控制系统。蓝色基因/P系统在一个机架内部署1024个几点,I/O节点从8个到64个不等(接入和计算节点一样的物理板)。该设备交付了每机架13.9 teraflops的性能,可扩展至256机架,超过100万个核心提供了近3.56 petaflops的峰值性能。

与上一代蓝色基因/L一样,BlueGene/Q节点也是采用空气冷却的方式,在一个节点板卡上集成计算和I/O节点。蓝色基因/P设备的一个芯片模块中集成了2倍的核心,一个计算抽屉内集成了2倍的计算节点,基本上核心数和浮点性能分别翻了2倍和5倍。

蓝色基因/P的功耗也增加了1.5倍,1 petaflops的功耗大约是2.9兆瓦。但是每瓦性能提高了9%,因此综合多方面来说,它的性能和能源效率是提升的。

通过蓝色基因/Q设计,IBM将进一步提高大规模并行超级计算机的性能和能源效率。首先,蓝色基因/Q处理器(简称BGQ)与IBM商用服务器中采用的Power7芯片有些相似,甚至更近似于Power A2处理器。

与这两个商用芯片一样,蓝色基因/Q的处理器是一款64位芯片,每个核心有4个线程。有趣的是,根据IBM软件工程师表示,蓝色基因/Q处理器模块有17个核心。在这个BGQ处理器上,其中一个核心将运行Linux内核,其他16个核心则用于计算。

蓝色基因/Q原型机中采用的核心主频为1.6GHz,而16核Power A2处理器主频为2.3GHz。BlueGene/Q超级计算机不仅让BGQ芯片开始过渡到64位,而且它的每个核心有4个线程来提高效率。

下面是蓝色基因/Q计算节点的一张图片: 

该计算节点中间的芯片就是BGQ处理器,有Power核心、内存控制器和各种连接特性。该计算节点并未满配DDR3主内存,这也是为什么上面覆盖有蓝色的材料,是用来覆盖内存插槽的。

蓝色基因/P有一个亮点,那就是它采用了水冷方式,有一个水冷弹簧加载铝护套环绕着计算节点的正面和背面,接入两个铜管之间的中板插槽。

当你将BGQ计算节点接入插槽,按压铝套相对BGP处理器和节点内存芯片与两个相邻的铜水管。这里没有特别的热接触材料防止芯片接触铝片或者铝片接触铜管。

蓝色基因/Q的计算抽屉

Smith表示,该系统的设计将使蓝色基因/Q可以通过水冷达到60至65华氏度,相当于谁冷系统的温度,这将越来越常见,因为系统制造商开始意识到,他们对数据中心组件有些过于冷却了。这个计算抽屉里没有风扇,只有两个电源和进出水管道。

这个计算抽屉中有来自每个计算节点的光纤连接,通向中板以便与蓝色基因/Q集群中的其他计算抽屉和计算节点相连接。水流进来,首先冷却互连芯片,然后通过计算节点交换热量。

蓝色基因/Q计算抽屉有32个计算模块(集群中每个服务器有一个计算模块),每个计算节点将配置16GB DDR3主内存(每个核心1GB)。一个计算抽屉有512个核心、2048个线程和512GB内存。一个蓝色基因/Q机架有32个(前端16个后端16个)半深的计算抽屉,也就是一个机架内有1024个服务器节点以及157万个专门用于处理计算的核心,另外98304个核心用于运行蓝色基因设备中的Linux内核。另外一个有趣的事实:IBM将采用5D网状/环面互连以连接蓝色基因/Q节点。

Smith表示,其实从5D互连可以想到,你在节点之间创建一个超立方体连接,然后连接这些超立方体以构成5D环面网。

通过蓝色基因/Q的设计,IBM分开了I/O节点与计算节点。这其中有两个原因,首先,通过分离可以独立进行扩展,那些不需要太多I/O的用户可以向某个机架中增加更多计算任务,利用更少的空间做更多的事。而且,I/O处理器同样是基于BGQ模块的,封装密度并不高,所以不需要用水冷的方式。

蓝色基因/Q的I/O节点

蓝色基因/Q的I/O抽屉有8个节点和8个插槽用于添加10Gb以太网或者InfiniBand PCIe外设卡接口(见左上方)。

劳伦斯利弗莫尔国家实验室的Sequoia超级计算机将在2012年安装就绪,它由96个机架构成,性能达20.13 petaflops。美国阿贡国家实验室(Argonne National Laboratory)曾在今年8月表示,他们也需要一台蓝色基因/Q,将有48个机架,总浮点性能达到10 petaflops。

前日公布最新一期高性能计算TOP500榜单中,IBM拿出了一个半机架的蓝色基因/Q系统,该设备的Linpack测试性能为65.3 teraflops,理论峰值可达到104.9 teraflops。

我们不知道蓝色基因/Q在带宽和延迟方面是否有所降低,但是据推测在平衡额外处理器性能方面还有很多工作要做。目前蓝色基因/Q中的一个机架的峰值性能大约在209.7 teraflops,而蓝色基因/P大约是13.9 teraflops,这是在原始性能方面的一个巨大跨越,大概需要一个更快的互连解决方案使其更高效。

如果IBM没有对互连技术做实质性的改变,那这也许会解释劳伦斯利弗莫尔国家实验室的蓝色基因/L的效率是为80.2%,阿贡国家实验室的蓝色基因/P效率为82.3%。

安装在德国Forschungszentrum Juelich代号为“Jugene”的825.5 teraflops蓝色基因/P超级计算机在Linpack测试中也得到了82.3%效率的成绩,相比之下,蓝色基因/Q并非令人惊讶地高效,但在最早设计的时候的确是这样的。当然,毕竟蓝色基因/Q还是一款原型机,就像2005年的蓝色基因/L和2007年的蓝色基因/P。