曙光Intel双路刀片服务器助力中国医科院高性能计算

面临挑战:

随着中国医学研究领域的不断深化,原有的计算服务器体系已越来越不能满足高性能计算方面的需求,中国医学科学院华在病原体研究等方面系统访问量巨大且应用高峰期频频出现,存储系统的空间也严重不足;同时随着相关领域的不断纵深发展,对高性能计算的迫切需求变得日益突出,原有的计算系统已不堪重负。

解决方案:

中国医学科学院病原生物学研究所与中国服务器旗舰厂商曙光公司深度合作,曙光公司为中国医学科学院病原生物学研究所提供了一个具有高度适应性的高性能计算平台。曙光公司除了为中国医学科学院病原生物学研究所用户提供包括CB60-F(Intel计算刀片)集群系统外,还提供了曙光曙光DS6310FE石硬盘、BladeEngine刀片平台、A950r-F网卡、Infiniband网络设备及相关天潮机柜与Force10 S50N交换机系统,实现了物尽其用,综合配备,最大程度地满足了中国医科院病原所科研工作对高性能计算能力及存储的需求。

中国医学科学院病原生物学研究所研究工作面临运算挑战

随着国家对医疗卫生事业的日渐重视,结合SARS、H1N1等流行性传染病的疾控要求的日益紧迫,我国有关医疗系统也开始加快了医疗尖端设备的购置投入。特别是以中国医学科学院病原生物学研究所更上走在行业前面。为应对突发性疾病,更快对各类疾病病原体进行快速高效的研究分析,中国医学科学院病原生物学研究所迫切需要一系列大型计算系统支持其日益严格的科学研究,但由于原有的研究运算系统的运算速度与运算质量越来越不能满足日益增加的研究项目需求,特别是对高性能计算、网络计算和虚拟机技术等方面的需求激增,随着医疗医学研究项目的深入和用户不断增加,以及海量信息处理、信息开发和科学研究对高性能计算服务的需求,中国医学科学院病原生物学研究所对高性能计算能力的需求越来越大,存储系统的空间也严重不足,数字化医学研究系统已不堪重负。
同时,中国医学科学院病原生物学研究所原有的计算系统依然需要继续运行。因此具有优化整合原有集群、易管理、且具有优异的性价比、服务优势显得极为迫切。

中国医学科学院病原生物学研究所急需搭建一种在高性能计算方面具有高速度、高质量、易管理的大型计算平台,以保障日益增加扩大的日常教学和科学研究工作的迫切需求。

解决方案

中国高性能计算领导者的曙光公司获悉后立即与中国医学科学院病原生物学研究所进行接洽,并在最短的时间内提出了系统的解决方案,本方案使用曙光高性能刀片和SMP胖节点混合的结构,从而满足不同类型的应用。刀片使用Xeon 5430四核处理器,主频达到2.66GHz。针对病源所软件pipeline,专门进行了优化。使用SMP胖节点曙光A950-F,单机性能达到32核心。。基于病源所软件的应用特点,单机浮点计算能力要求高,大规模并行能力强的特点,我们在各计算刀片之间Infiniband高速互联,使得系统带宽达到20Gb,延时仅为1.5us,大幅提高并行处理能力和效率。用户应用类型对I/O有较大需求,方案采用。基于以上的分析,本方案的计算系统的主体由曙光刀片加SMP胖节点,互联采用infiniband高速网组成。

本方案使用32片曙光刀片和1台smp胖节点作为计算节点,1片曙光双路刀片作为登陆管理节点,7片曙光2路节点作为I/O节点,在满足用户需求的前提下,最大限度地整合资源,使得计算刀片,I/O刀片,管理登陆刀片有效集中在同一个刀片机箱内,最大程度节约了空间,减少了布线,降低了成本,这与曙光刀片平台良好的兼容性密不可分的。同时,曙光刀片网络,Infiniband设备的模块化设计也为用户最大限度提高了性能,节约了成本。

用户存储需求大,空间要求高,本方案的存储使用目前业界容量最大的SATA磁盘阵列,存储容量达到64TB。为了保证I/O的性能,在主机一端使用光纤通道,速度达到4Gb。为了保证存储系统的可扩展性和灵活性,使用FC SAN的存储配置。同时,计算节点之间可以通过Infiniband对 I/O节点进行访问,从而提高I/O性能。

本方案充分考虑到了应用特点,使用Infiniband高速网,专门为曙光刀片平台所设计的Infiniband高速模块,减去了Infiniband的卡,交换机的成本,大幅降低Infiniband高速网成本和布线,同时保证了所有节点之前Infiniband全线速互联。

构建一套大规模高性能集群系统涉及到三个层面的内容:最底层的是硬件平台,它是完成任务的最基础设施;其次是OS平台,包括节点机的操作系统以及集群操作系统;最后是应用环境平台,包括并行开发环境以及编译环境。高效率的集群系统需要几个层面的紧密耦合、协调工作。曙光TC4000A的注重效率的设计思路贯穿到每一个细节,在每个层面上都做到性能最优。尤其是OS平台以及应用环境平台。

曙光公司针对网格应用在曙光4000A上应用了众多的面向网格的应用,这些应用一方面帮助用户提供一个完整的单一系统映像的管理,一方面进一步实现很多网格相关的应用。在并行开发和编译环境、MPI、PVM、编译环境:GNU Compiler、ACML、BLAS库、GOTO和ATLAS、LAPACK、ScaLAPACK、PETSc、FFTW等方面下足了功夫。值得一提的是曙光为此配备的PVM系统,即并行虚拟机(Parallel Virtual Machine)。它是由美国橡树岭(Oak Ridge)国家实验室、美国Tennessee大学和Emory大学于始于1989年联合研制成功的一种特殊科技,它具有较好的适应性、可扩展性、可移植性和易使用性等特点,源代码可以免费获取,现已被用户广泛采纳等特点。目前对它的研究和开发工作仍在各大学和研究机构进行。随着它的不断流行,已经被移植到PVP、SMP、MPP、工作站和集群系统。

 

系统拓扑图

此外,曙光还特别为中国医学科学院病原生物学研究所量身配备NAMD、GROMACS软件等分子动力学系统领域相关软件,可以具有序列搜寻与比对、分子图形分析、分子对接(药物设计)等功能。

收益与商业价值

基于英特尔至强处理器的曙光病原生物学大型计算平台使得曙光公司和中国医学科学院病原生物学研究所在如下方面获益匪浅:

病原研究平台运行稳定可靠,避免了因系统故障导致的超算平台效率下降。

极大的提高了原有计算模式的速度,保障了中国医学科学院病原生物学研究所学科研究上的应用,增强了中国医学科学院病原生物学研究所科研方面的核心竞争力。

降低了中国医学科学院病原生物学研究所的总体拥有成本,基于英特尔架构的曙光病原生物学大型计算平台可以实现简便、集中、有效的管理,并可根据客户对性能的需求而进行动态调整。另外电源和散热策略的自动优化,空间的节省,部署效率的提升,都有助于降低总体拥有成本。

曙光病原生物学大型计算平台的成功使用不但验证了拥有刀片服务器自主知识产权的曙光公司的创新能力,而且曙光公司的国际影响力得到进一步加强。

曙光病原生物学大型计算平台作为一个助力现代医学研究信息化建设、科研工作的高科技平台,它带来的不仅是运行效率的显著提升,同时也完全满足了用户对更高计算性能和更低成本的追求,让用户在最大程度上感受到高性能计算技术的真实价值,从而实现稳定、高品质的服务,也将在更深层次上推动我国医学研究行业高性能计算系统的建设,让中国的医疗事业发展在高性能计算平台上扬帆起航。