随着"十二五"规划的出台,中国七大战略性新兴产业的发展与政策指导霎时成为社会各界关注的焦点,而作为七大战略性新兴产业之一新材料产业的发展更是牵动着众多相关产业的关注,其应用范围极其广泛,成为了二十一世纪最重要和最具发展潜力的领域。然而在新材料制造过程中其复杂性与专业性甚高,目前,新材料的发展与研究主要集中于国内专业的研究机构与各大高校的课题研究中,高性能计算机集群系统则成为他们不二的选择。
清华大学构建基于曙光5000集群架构的高性能计算系统
清华大学作为中国教育界的顶尖名校之一,为了提升教育质量和拓展科学研究课题的进度。清华大学材料系携手国内知名的服务器厂商、解决方案供应商曙光公司建设高性能集群计算系统。曙光公司针对清华大学材料系的实际情况进行了全面的分析、了解,并结合多年的行业经验,为清华大学提供了一套集高性能、高可靠性、高扩展能力、高可管理性于一身的解决方案。该方案采用曙光专为百万亿次大型计算系统设计的5000集群,集群系统由硬件层、系统软件层、集群管理系统、应用层组成。
方案中的曙光5000高性能计算集群系统,由20台CB85-F(4路AMD四核)计算刀片、1台A620(2路AMD四核)管理存储节点组成,网络采用Infiniband高速计算网。
集群操作系统采用Linux 64位系统(SUSE Linux Enterprise 10 update 2 64bit),同时配备GNU编译器和应用开发环境,MPICH集群并行环境。
软件管理系统则采用了曙光Gridview服务器综合管理系统v2.0,该管理系统采用模块化设计,能够提供机群部署恢复中心、综合监控管理系统、统一告警平台、统计报表系统、作业调度调度中间件、IPMI管理等多种机群管理功能。
曙光5000集群系统技术优势
曙光5000高性能计算机是曙光公司在国家863计划"高性能计算机及其核心软件"重大专项的支持下,与中科院计算所共同成功研发的。曙光5000采用新型"超并行"体系结构(Hyper Parallel Processing,简称HPP),是中国自主知识产权产品,具有高性能、高效率、高密度、高性价比、低功耗以及广泛适用等特点,适用于各个领域的大规模科学工程计算、商务计算,同时曙光5000也可作为各种数据中心、云计算中心的支撑平台。
体系架构:为适应高效能计算机的要求,曙光5000在基础架构上进行了创新和改进,采用HPP体系架构,融合了Cluster和MPP两种计算机的优势,使得曙光5000可以用来构建百万亿次的计算系统,同时保持系统的高效率、易用性、高产出率、低功耗等特性。
计算节点:曙光5000的计算节点以TC2600系列刀片产品为主,也可以配置曙光其他服务器产品。TC2600刀片产品包含:配置Intel双路处理器的CB60-F、配置AMD双路处理器的CB65-F、配置AMD四路处理器的CB85-F;
Gridview是曙光5000的核心组件之一:Gridview大型机操作系统继承了曙光DCMM2、DCAS等产品的主要功能和技术特色,基于B/S架构,提供统一的集中管理和监控,主要实现了系统的状态监控、告警管理、统计报表、作业调度、统一操作、系统配置等功能;
网络方案灵活:曙光5000可以根据客户的应用需求选配不同的网络,既可以使用全无阻塞的Infiniband CLOS网络构建计算存储网络,也可以使用冗余万兆级联的分区无阻塞Ethernet互联网络和FC SAN网络构建计算存储网络;
存储系统方案多样:曙光5000可以根据应用需要配置存储系统,既可以配置简单易用的DAS存储,又可以构建高性能的FC或Infiniband SAN存储,提供较高的聚合I/O带宽;
集高性能优势于一体的曙光A620r-H服务器
值得一提的是,该方案中的管理存储节点所采用的是曙光公司精心打造的一款性能卓越,稳定可靠,配置灵活的双路64位服务器产品–曙光A620r-H服务器。该款服务器具有处理速度快、可用性强、易管理、高扩展、低功耗和低噪音等特点。在整个方案中担任着极为重要的存储职能,为日后系统的升级与扩容奠定了重要基础。
据曙光技术专家介绍,曙光A620r-H采用独具特色的机箱设计,极大地降低了机器的噪音。同时,A620r-H还支持两路AMD64 2000系列皓龙处理器、支持先进的DDRII内存,可大幅提高内存带宽。而其独特的服务器设计还能稳定运行Windows、Red Hat Linux、SUSE Linux等32位和64位主流操作系统,是能适应多种重要任务环境的新一代服务器。
本方案中之所以选择A620r-H服务器,除考虑到其强大的内存设置之外,另为重要的还有其所采用的NVIDIA高性能服务器芯片组和高速Hyper Transport直连架构,可极大地提高整机性能和运行效率。不仅可最大支持12块热插拔硬盘,其板载的SAS HostRAID配置在提供强大的性能的同时并能保证数据的安全。总的来说,A620r-H服务器不仅为系统提供了超群的高性能和高可靠性,而且为以后的平台升级预留了空间。
清华大学建设曙光5000高性能计算集群系统的意义
曙光5000集群系统能够满足清华大学材料系庞大的计算需求,该方案集成并融合了计算系统、存储系统、网络系统、电源系统、散热系统、监控管理系统、KVM等模块于一身,通过管理模块的自动优化调节,能够达到最佳的运行状态,发挥出最优的整体性能。目前,曙光5000高性能计算集群系统已经部署完毕并且投入正常的使用当中,正在为清华大学材料系的分析研究和学科研究带去精准、高效的计算支持,为清华大学教学质量的提高和研究进度的推进起到了重要的作用。
同时,此次项目的成功落地也是曙光公司科技成果与应用相结合的体现。在未来的时间里,我们相信曙光公司将继续结合自身的优势与科技研发进程及时的投入到实际应用当中,确实做到科技与民生的相互依存。