不用谢,这是我应该存的

π,是韦建文老师和上海交通大学高性能计算中心一众同事的骄傲。

这不是人们熟知的那个希腊字母,也并非指代圆周率,而是2013年10月23日落户到上海交大的一台超级计算机。该系统峰值性能达到263万亿次,当时位列全球第158、中国第11、上海市第1。

从97份应征稿件里,上海交通大学高性能计算中心最终选择了「π」为这台机器命名。在希腊文中,π具有并行的涵义;在数学中,作为无限不循环的无理数,π是人类理解无限的开始;在想象中,我们则可以将π看作交通大学首字母J和T的组合。

存储系统面临挑战

作为校级的超算平台,π的首要任务当然是满足校内的计算需求,然后才会考虑为外面的科研机构和公司提供服务。

不消说,π的到来为上海交大诸多院系带来充足火力,为超过130个课题组提供了数千万核小时的计算能力,资源利用率一般在60%左右,CPU的占用率则常年维持在70%以上。

π是当时全国高校里使用异构计算最大的集群规模,总共有332个节点,加速卡节点65个,20个胖节点(通常双路作为1个节点,胖节点指的是多路),还有130块GPU加速卡。韦建文表示,事实证明这些加速卡在分子计算等方面有很好的效果。

上海交大传统的强势学科,譬如物理、天文等学系,以及生命科学、医学等学院,迅疾将海量的计算任务托付给π,各种学科研究藉此得到了充足的发展和推动。一时间,举校上下好评如潮。

然而,问题终归还是来了。

存储容量的问题首当其冲。此前π配置了720TB的存储空间,本以为能够满足一段时期内的需求,孰料到2016年初,存储占用率就达到了90%——这简直已经是存储需求的「红色警戒」了。

与此同时,系统的管理运维过于复杂,特别是针对高性能计算的存储经验不是很足,占去了存储管理员的更多精力。

更具体的,还包括一些细节上的问题。譬如存储系统对小文件的读写速度不尽如人意,结果导致用户体验不佳的情况——这些校内用户们往往距离很近,蹬几分钟自行车就可以上门讨要说法了。

存储系统的升级,成为摆在上海交大高性能计算中心面前的紧要任务。

解析用户核心需求

2

针对上海交大超级计算机π的现状,戴尔公司进行了深入的研究与分析。

首先,在高性能计算领域,高效地将数据传入和传出计算节点至关重要,这通常会涉及到一些复杂的因素。超算系统能够以极高的速度产生和使用数据,存储倘若不能跟上的话,必然会成为整个超算系统的瓶颈,再强大的计算能力也无从发挥。

其次,对上海交大这种科研任务重、计算需求极大的用户来说,存储的扩展必须被考虑进去,数据对性能和容量的需求会持续不断地快速增加,因此新的存储系统必须能做到弹性、有序的扩展,不断提高存储的吞吐量和性能,从而为整个超算系统提供有力的支持。

最后,上海交大高性能计算中心为全校各个院系提供服务,人力资源相对紧张,不可能为管理和监控复杂的存储系统配备太多的管理员,因此新的存储系统必须易于管理。

戴尔认为,基于戴尔与英特尔在企业级Lustre 平台(Intel Enterprise Edition for Lustre,简称IEEL),能够完全满足上海交大高性能计算中心的要求。该存储解决方案使用Lustre这一领先的HPC开源并行文件系统,这也意味着它具有良好的可用性和可扩展性。

安装了IEEL的戴尔HPC存储设备,专门面向那些需要部署完全受支持、易于使用、具有高吞吐量、能够横向扩展且经济实惠的并行文件系统存储解决方案的学术和行业用户,是一款能够提供高性能和高可用的存储系统,此前在剑桥、华大基因等超算系统中均得到了良好的应用。

值得称道的是,该解决方案利用智能、丰富且直观的管理界面(Intel Manager for Lustre,简称IML),大大简化了所有硬件和存储系统组件的管理和监控。它在容量或/和性能方面易于扩展,从而为未来增长提供了方便的途径。

超算系统存储升级,鱼与熊掌不能得兼?戴尔说:No!

存储方案大体框架

为上海交大高性能计算中心设计的方案里,戴尔采用了第十三代企业级Dell PowerEdge R730机架服务器(6台),以及最新一代的高密度DELL PowerVault MD3420 (1台) +MD3460 (1台)磁盘阵列,作为整个存储系统的核心。

其中,DELL R730机架服务器用于元数据服务器+对象数据服务器,它的主要配置为:2路E5-2660 V3 2.6GHZ 10核心处理器,256GB RDIMM 2133Mhz DDR4内存,2块300GB的15000转硬盘,H730 1Gb缓存 RAID卡,以及冗余的750W白金级电源。

DELL MD3420磁盘阵列用于元数据存储系统,它配置了双12G的SAS控制器,以及16GB镜像保护缓存,配置24个800G MIX SSD,做成RAID10,并设置了2块热备盘和1块冷备盘。

DELL MD3460磁盘阵列用于对象数据存储系统,它同样配置了双12G的SAS控制器, 以及16GB镜像保护缓存,OST裸盘容量最高可以达到3840TB。做成RAID6(8+2)后,可用容量差不多是2553TB ,同样也设置了2个热备盘和1块冷备盘。

最后是英特尔Lustre商业版用于并行文件系统,提供了2个MDS、4个OSS授权。

至于本方案中同时涉及到的以太网交换机、IB交换机扩展卡、线缆等方面的内容,请点击阅读原文下载案例报告。

选择戴尔的理由

在一番比对和研讨之后,上海交大高性能计算中心最终选择了戴尔的产品方案,作为π2.0未来规划上线的二级存储系统。

韦建文老师表示,首先,戴尔产品方案的吞吐性能非常好,这一点尤其得到了高性能中心的高度认同。在这样的前提下,戴尔还能做到极富竞争力的价格,这简直是用户意想不到的BONUS了。

其次,戴尔有着非常好的本地支持服务,高性能中心完全不用担心备件问题,5年白金专业支持、一年无休的4小时上门服务,足以帮助高性能中心满足来自各个院系的严苛计算任务的需求。

再次,上海交大高性能中心对Lustre极为认可,这种文件系统彻底摒除了过去小文件读取存储的瓶颈,π的强大计算能力得以充分发挥。作为英特尔最为核心的合作伙伴,戴尔的设备上运行Lustre显得尤为高效。

最后,上海交大在选择供应商时,也非常注意供应商在高教领域的其他应用状况——虽然学校与学校之间各有各的不同,但是在高性能计算方面的需求,终归是相差不远。此前,高性能中心就已经了解到戴尔在全球很多名校,譬如剑桥超算系统的存储方面,均得到了很好的应用。

韦建文老师指出,在数据中心领域,戴尔有着非常高的市场占有率,其解决方案的软硬件配置也很透明。综合以上各种因素,上海交大高性能中心最终选择了戴尔。

应用痛点一扫而光

据悉,作为主存储系统,戴尔的产品方案目前已经在上海交大高性能中心投入使用,各个院系的数据基本已经迁移过来。原先的存储系统并没有被废弃,而是用作备份和二级存储,这也算得是对原有投资的某种保值。

从各方的反应来看,大家很满意,原有的应用痛点都得到了很好的解决,各个院系均反应新的存储系统更加高效和稳定。以生命科学学院的基因组测序为例,他们已经新增了100多TB的数据。在使用过程中,各种大小文件的读取和存储速度令人满意。

不止于此,存储管理员也得到了解放。通过IML提供的Web界面,管理员可以很方便地观看存储状况,并且在远程对一般性的故障和突发状况进行处理。

韦建文老师告诉我们,当前系统的存储容量已经提升到2PB,数据总量在其中所占比例已经下降到「红线」以下。不过考虑到各个院系的数据增长速度,高性能计算中心准备到后续将之扩容到3PB。

未来,上海交大高性能计算中心和π集群将会更多地向异构的方向发展,下一代会考虑高吞吐量的耦合计算能力。与此同时,高性能计算中心还在考虑在存储节点上使用闪存的可能,以便更进一步提升性能和IO带宽,为用户提供更好的计算和存储服务。

最后,韦建文老师表示,十分感谢戴尔公司提供如此优秀的产品和解决方案。

至于戴尔,则已经在本文的标题上做出回应了。