Strathclyde大学作为英国的知名大学,在技术和科研上一直投入了较大的心力。一年之前,该大学闻名遐迩的工学院在其Glasgow校园内开创了英国最强大的学术性HPC(高性能计算)解决方案的先河。高性能计算集群的使用为成百上千来自全世界的员工、科研人员和学生运用最高级别的处理器资源打开了一扇窗。
难题
Strathclyde大学老化的集群已经无法提供必要的计算资源和任务吞吐量来支持该大学的各种科研项目。尤其是,平行处理任务的增长所需要的通信限制了性能和集群吞吐量。
学院和跨学科的科研人员正在运行的并行项目会导致之前集群频繁地出现瓶颈。尽管学院提高了处理器的速度,但是没有提高网络性能,因此进程间的性能受到限制。由于并行处理所产生的数据高达数TB级,并且随着科研人员的使用,系统数据在未来一年内甚至还可能翻番,因此如何扩展高性能计算系统对该大学而言显得刻不容缓。并且扩展的新集群还要尽可能的绿色,并具备配置简单、能源和运营低成本等特点。
解决方案
最后,该大学经过多种选择,决定在136xdualCPU1RUSunFire®服务器上使用四核处理器技术来搭建一个用户自定义的集群。集群的互连由QLogic TrueScale™InfiniBand®Quad DataRate(QDR)主机适配器构成,该适配器所在的每个计算节点则连接到QLogic 12000 Series InfiniBand边缘交换机的InfiniBand光纤网络上。其高信息率和低延迟均衡了四核处理器的计算性能,从而确保了应用性能的可扩展性。
由此搭建的系统总的计算能力高达1088个处理器内核,每秒可以运行13万亿次计算,并且可存储100多TB的数据。所有的高性能存储和进程间的通信都运行于QLogic的QDR InfiniBand光纤网络之上。性能测试显示在任务高峰期该网络可以达到每秒13万亿次浮点运算的能力。
安装了高性能计算集群之后,科研人员显著节省了计算时间。并且依靠应用,速度提升了将近56%。这对于大学的纳米技术研究尤其帮助很大。此外,集群还推动了跨部门的研究。例如,大学的工程部能够同Complex Systems学院密切合作,增加了对可用数据池的使用,从而可以解决全球最大的难题。
并且,系统的多个自动化功能可以实现更快的系统安装和配置,这不仅仅限于首次安装,而且还包括以后新节点的添加。集群本身所附带的工具支持基础设施内的并行操作,并能够识别之前难以检测到的问题。这些问题会被突出显示、以小红旗来标注并得以解决。这些工具配之以向导推动的主机管理工具,大大简化了交换机和主机管理。