16461核Janus超算如何高效?

科罗拉多大学波尔多分校最近和Dell合作共同设计了新的16,461个核的Janus超级计算机系统以及配套的数据中心设施。统一考虑超级计算机和设施资源的共同设计过程同时考虑了快速、高效部署,促进了持续管理以优化设施效率。Janus 设计师设计并构造了超级计算机系统以及配套的完全定制的预制设施,设计师们认为是首次创造了部署在预制设施中用于科学计算的top-50超级计算机系统。

Janus超级计算机的研发资金由NSF、科罗拉多大学以及大气研究国家中心提供。设计员工同样和Dell公司在计算资源和设施方面,包括受控的气候空间用于计算机硬件,包含电力和制冷设备的单间,以及一个邻接的冷却塔密切合作。预制设施是定制的数据中心,包括配电系统必须的所有设施设备,HVAC,监控以及灭火设备。

超级计算机需要高度专业的计算机机房设施严密满足系统的独特需求。正如Janus设施白皮书所说,这类空间"不能从没有程序性障碍,比如设备成本模型,施工程序以及临时预算所致的基本建设暂停的大型机构轻易得到。" 科罗拉多大学波尔多分校通过选择预制设施克服了这些障碍,并在3个月内完成了设施以及计算机系统从设计到初期的现场安装。和改装或新建永久建筑物相比,预制设施可以被更快构造而且成本相当低。设计师们预计该设施和其他数据中心类似,有15年的使用寿命。

大学负责主要的公用电源供电线路,多种用途的淡水供应,公共厕所排水,以及混凝土基座和入口坡道。设施的其他部分作为预制集装箱的一部分提供。该设施只占用很小的空间:占地面积是61 x 33.5 x 12.5 英尺。该设施被构造用来满足HPC系统以及其生命周期内将来扩充可能性的需要。该设施被Dell合作伙伴组装并进行了完整的厂外测试,系统在Dell构建并进行了工厂测试。集装箱在一天内在大学先前的停车场安装完成。交付超级计算机以及预制设施后,该大学能够同时完成设施安装并安装高性能计算系统,花费几个月的时间组装,连接并测试计算和设施资源。 相关任务包括水管设施及电气连接,热风道安装,硬件和Infiniband 测试以及科罗拉多大学的研究人员使用该系统。

Janus计算系统由Dell PowerEdge-C C6100机架组成,配置了1,368个节点,每个节点包含2颗2.8 GHz的六核Intel至强Westmere-EP芯片,共计2,736个处理器和16,416个核心,理论峰值性能达到了184 TFLOP/s。

每个核心有2GB的1,333 MHz DDR3内存,每个节点有24GB内存,整个系统包括32TB的内存。节点使用完全无阻塞的QDR InfiniBand网络连接,该网络有3个648端口的Mellanox脊柱底盘,79个36端口的叶片开关;管理使用单独的以太网络。每个对联300块硬盘的两个数据直连网络SFA10000对联构成了860TB的存储系统,该系统的联合的I/O吞吐量达到了20GB/s。系统封装包括17个包含计算节点的48U机柜,3个机柜专门用于Infiniband核心交换,2个机柜包括管理,网络及存储设备。该计算系统运行高性能LINPACK时持续负荷低于500kW。

共同设计方法意味着科罗拉多大学波尔多分校能够构从头开始建数据中心满足Janus超级计算机的需求。通过共同设计过程,Janus团队能够创建实现令人印象深刻PUE值的基础设施。设计师目标PUE值是1.2。设施在早期的测试操作中超越了这一目标。在6个月的测试中,基础设施在负载下持续提供了1.059的PUE值,资源闲置时PUE为1.1(大概240kW)。

Janus白皮书指出,"总的来说,采用整体的方法池化所有的构造资源为工程师提供了相互沟通的机会并做出适当的决定以最大限度地提高系统的整体性,而不是作为单独的部件进行组装。"举例来说,整体设计需要8个额外的冷却装置,但是它们的成本被工程在机械和电器方面材料的减少和安装成本的节省抵消。 最后,工程成本将少于如果计算资源和设施资源被独立设计和管理时建设和运转它们的成本。

团队为以最大化各个方面效率为目标的设施应用了整体、共同设计过程,进行其他结构,电气和制冷决策。例如,团队分析了数据中心负载,做出控制及冷却水流量的决策。Janus计算机机房具有2MW电力供给,337吨冷却水。团队选择了600 F补给温度,这个温度是冷却器能够承受的最高温度。它们选择了行内具有热通道控制的冷却装置因为它们能够很好执行提高的温度补给。对于热通道控制,只有从计算机流出的空气是冷却的,而不是来自计算机机房内部已经冷却的环境空气。基于负载分析,团队同样选择了160 F 冷却水流量,由于流量减少,160 F 冷却水流量允许设计者减少系统接管口径,同时减少泵功率,这意味着系统消耗更少的功率。能够检验并调整所有的设施系统并把资金分配给将提供最多效益的组件,允许科罗拉多大学波尔多分校优化最初成本及运算成本。

既然系统开始运行,管理人员继续一起监控计算和设施资源。计算和设施资源的集成采用两个方法提高全部设施的运算效率:(1)通过平衡设置组件和系统负载以及(2)通过合并系统的操作状态更新。这一组合不是把负载当作不可预知的实体对待,允许系统和设施以集成和紧密结合的方式相互作用;系统调整设施设定值,行内冷却装置风扇转速等等,可靠地并可预见地设置设施参数。这反过来有助于有效率的,可预言的,可感知的电力和性能的执行,该执行反映了管理最有价值各个应用程序,工程和运营策略。