曙光助力清华大学医学部生命科学研究

前言:

扫描电镜是生命科学研究中必不可少的仪器设备,获得重要科研进展的重要工具,这种实验设备往往科技含量,价格昂贵。扫描电镜系统则是通过用极细的电子束在样品表面扫描,获得原始数据(RAW DATA)然后通过软件进行提纯和分析,将产生的二次电子用特制的探测器收集,形成电信号运送到显像管,在荧光屏上显示物体,(细胞、组织)表面的立体构像,摄制成照片,获得人类认知范畴之内的信息。

用户背景:

清华大学医学部成立于 2001 年 10 月 25 日,是清华大学在生命科学和医学被认为是当今世界科学技术领域最活跃、最有希望取得关键性突破的学科之一而决定创立的。医学部是清华大学为顺应国家发展需要及世界高等教育和科学技术发展的趋势,为向世界一流大学的目标奋进迈出的极为重要的一步。为了使清华大学在 2011 年前能跻身于国际一流大学之林,清华大学校领导已明确提出“要争取在信息、纳米及生命科学上有所突破”这一战略目标。

用户需求:

基于社会经济的发展,人类越来越注重身体的健康,生命科学和医学被认为是当今世界科学技术领域最活跃、最有希望取得关键性突破的学科之一,清华大学医学部充分利用清华的师资和实验室条件,完成相关理工学科基础教学任务,建立起一套比较完整、先进的基础及临床医学的教学系统平台。此次曙光凭借在教育研究领域是多年耕耘的行业经验,为清华大学医学部构建高性能计算系统平台。

针对性的解决方案:

立足于清华大学医学部对计算的需求特点,曙光为清华大学选用了扫描电镜后处理软件spide,但是最重要的应用电镜后处理软件spider,占整个应用的70%以上 ,针对spider软件的计算量大,对内存容量和带宽要求高,曙光使用具有直连架构的AMD 六核处理器,将内存的容量扩展至32GB,从而有效消除前端总线的瓶颈,大幅提高内存的容量和内存访问带宽。

Spider软件的应用主要以openmp方式为主,普通刀片的计算能力和内存容量难以满足需求,在大部分的计算都能通过刀片集群满足用户需求的情况下,曙光配置了一台高性能的SMP胖节点,该计算节点的计算能力达到单台32核心,内存容量更是扩展到128GB。

NAMD的扩展性对网络的要求很高,必须通过高性能网络才能大幅提高并行效率。

Namd的扩展性测试

我们可以发现,namd软件的扩展性依赖于Infiniband网络,使用带宽20Gb,延时小于1.5微秒的Infiniband网路,可以大幅提高软件并行执行效率。

电镜后处理属于关键性应用,运行周期长,牵扯上游仪器的使用时间和使用成本,对机器的可靠性和可用性要求高。曙光配置了刀片集群,关键节点都使用冗余电源、风扇,raid 1 的硬盘策略,存储节点使用双机热备,存储使用双控制器磁盘阵列,从而有效增加系统可靠性和可用性。

方案特点:

关键性

电镜后处理属于关键性应用,运行周期长,牵扯上游仪器的使用时间和使用成本,对机器的可靠性和可用性要求高。曙光配置了刀片集群,关键节点都使用冗余电源、风扇,raid 1 的硬盘策略,存储节点使用双机热备,存储使用双控制器磁盘阵列,从而有效增加系统可靠性和可用性。

规模比较大

项目规模比较大,需要具有一定资质的系统整体解决方案提供商,从而保证产品的稳定性,可靠性,整个系统各项性能的匹配性。

高应用性

针对用户使用软件应用的多样性和复杂性,本方案中曙光推荐使用世界先进的扫描电镜、刀片集群和SMP胖节点混合的架构,刀片集群可以很好的满足大部分应用的需求,但是对于一些特别的应用,例如需要更大内存带宽、无法跨节点并行或跨节点性能不高的应用,32个计算核心的SMP胖节点很好的满足了此类应用。

完善的服务

曙光是业内唯一的五年原厂商服务的企业,能够帮助用户真正解决后顾之忧。一整套的解决方案,从前期的安装,培训,软件的编译、调优,以及设备到位后的培训,使用户不仅仅买到的是一些设备,而是能够真正用得好,能为自己的科研工作相助一臂之力的帮手。

方案小结:

目前,曙光为清华大学医学部量身定制的解决方案已经部署完毕并且投入正常运营当中。

曙光高性能计算系统平台作为一个助力现代医学开展生命科学研究、开展科研工作的高科技系统平台,带来的不仅是高校科研水平的显著提高,同时完全满足了用户对低成本、低功耗、以及高性能计算的全面追求,让用户在最大程度上感受到高性能计算技术的真实价值和绿色功能,从而实现用户对高稳定性、高品质服务的计算系统平台的追求,也将在更深层次上推动我国医学研究行业和生命科学研究领域的发展。■