在虚拟空间飞翔 曙光助力北航复杂产品实验室

服务器在线8月4日报道 北京航空航天大学成立于1952年,是一所具有航空航天特色和工程技术优势的多科性、开放式、研究型大学。

今年来,北航以我国国民经济和国家安全的整体战略需求为目标,着手打造北京航空大学复杂产品先进制造平台,成为航空航天复杂产品制造技术创新基地,这一平台的建立不仅加快新技术、新产品的开发和应用,全面提高我国航空航天制造行业的技术水平,并且可以持续不断地为本行业及相关行业提供工程化技术成果,充分利用学科优势,推动学科交叉,全面系统地培养科技创新人才和管理人才。

在该项目中,北航复杂产品实验室为节省资源,将节约环保落在实处,积极推进多院系合作,该中心由北航四个学院和航空航天企业集团共同建立。客户表示选择曙光4000L不仅将自身的高性能计算资源进行集中,极大提高了复杂产品先进制造的效率,而且曙光4000L系统便捷的用户管理,让用户可以进行有效的分布式管理及数据提交,充分满足客户的需求,达到了良好的使用效果。

一、看似复杂,实际更加复杂

复杂产品和系统(complex products and system,CoPS)指的是研究开发投入大、技术含量高、单件或小批量定制生产的大型产品、系统或基础设施如航天器、飞机、汽车、船舶、复杂机电产品等。复杂产品制造业是国民经济和国家安全的重要基础,它的竞争将直接关系到国力的兴衰。“

复杂产品集成制造系统技术”正是为适应这种竞争背景,在相关新技术推动下提出并发展中的一门新兴技术。北航这次耗费巨资建立的复杂产品实验室,旨在建成一个分布、集成、共享、协同、智能、开放、安全支持复杂产品设计、生产、试验验证和管理的航空航天复杂产品先进制造支撑环境 ,帮助研究者更快更好的完成模拟试验,进而助力复杂产品的生产。

以往复杂制造的过程中,各部门都需要高性能计算机,各自为政致使高性能计算机的使用效率不足,造成了计算资源的浪费。北京航空航天大学复杂产品先进制造平台选择曙光公司的曙光4000L将自身的高性能计算资源进行集中,极大提高了复杂产品先进制造的效率。曙光4000L系统便捷的用户管理,让用户可以进行有效的分布式管理及数据提交,也是客户决定采用曙光4000L的要素之一。

二、方案基本概述

在本次项目中,曙光公司采用了自主研发、最新设计的基于集群架构的超级计算机——曙光天潮TC4000L超级计算机。曙光TC4000L是曙光公司推出的一款成熟的IA架构集群系统,具有可自由伸缩、高度可管理、高可用、高性能价格比等诸多优点,是曙光公司机架式服务器集群的经典之作。曙光TC4000L集群服务器解决了跨平台管理、跨操作系统管理、系统软硬件运行状态监控等混合平台应用等一系列技术难题,整体技术在国内具有领先水平,达到国际同期同类产品的先进水平。

如上图所示,本方案共包括64个计算节点共256颗2.4GHz主频的AMD Opteron CPU,整体理论峰值运算速度超过1.2万亿次;此外系统包括两个双机热备份的IO节点,通过Ultra320 SCSI接口连接DS2120磁盘阵列,通过NFS文件系统为整个集群计算节点提供文件系统服务。管理节点将安装曙光DCOS集群管理软件,简化集群管理。互联网络采用计算网和管理网分离的方式,计算网选用的是专为高性能计算设计的Foundry千兆网交换机,具有最好的性能价格比。

系统还将包括50个单路客户端服务器和7台双路图形工作站用于科学建模等,它们都配置了AMD Opteron处理器,性能较Intel产品明显提升,并且具有最低的功耗,节约能源。

高性能计算机是曙光公司的拳头产品,曙光4000L是曙光公司的成熟产品,成功运用在石油、气象等众多关键项目中,此次的项目的选择,客户正是基于对曙光产品性能的信任和整体解决方案的优秀

三、方案亮点

曙光作为国内唯一一家坚持走“自出创新”的技术型厂家,依托中科院等强大的科研背景,在高性能计算领域有着众多的专利技术,在此次的项目中,6大技术亮点保证了整个方案的高效稳定,并为日后的扩展打下良好基础。

亮点一:集群技术

集群技术是曙光公司的传统强项,本项目计算节点采用两路双核的1U机架式曙光天阔R210A服务器,支持两颗高性能的Opteron 200系列双核处理器,达到1U准4P的刀片级高密度。R210A服务器具有最好的性能价格比。计算能力较两路单核提高70%以上,能耗却与之相当,用于构建大规模集群能够节约大量电力能源。

另外曙光在本项目上采用计算网和管理网双网设计,实现双网分离、专网专用,同时又相互备份,达到系统的高性能和高可靠性。为了避免IO成为系统的瓶颈,本项目中曙光单独配置2台IO节点A620r双机热备份运行,提供2颗Opteron双核处理器和4GB的内存,使得方案具备了很强的扩展性。

曙光4000L独有的、具有自主知识产权的集群管理系统。包括适合大规模集群系统的SKVM网络实现了对1024以上节点统一控制,软硬件一体化的集群监控系统弥补和纯软件或纯硬件监控系统的天生不足,同时提供曙光集群操作系统DCOS和国家智能计算机研究中心大量集群软件为用户提供更为丰富和更多功能的软件产品选择。

亮点二:节点机的优势

节点机系统是整个高性能集群的核心部分。同是IA架构,虽然同是由处理器、主板、内存、硬盘、网卡等构成,但各部分的搭配艺术体现了各服务器厂商在该领域内的技术水平。一个制作精良、架构合理的服务器一定是由很多部门经过长期选型、测试才能最终成为一个优良的产品。曙光提供的R210A服务器就是经过这样严格的流程,最终成为这样一款适合运算的服务器产品。 

亮点三:视频系统优势

随着机群系统规模的不断扩大,对于系统的可管理性也提出了越来越高的要求,因此KVM系统对于大规模系统来说是必不可少的工具。与国外同类产品相比,曙光SKVM over IP系统在系统容量、系统可扩展性以及系统可用性方面均有优势,是一款部署方便,性价比较高的产品。

在系统容量方面,曙光大规模SKVM over IP系统采用通过5类网线连接的菊花链(daisy chain)拓扑结构,配合曙光SKVM Multiplexer(多路器)扩展系统规模,最终可通过一台控制终端,控制多达1024台节点服务器,从而为使用者提供部署方便、性价比最高的产品。曙光通过采用菊花链连接方式,还使得客户可方便的在原有系统的基础上增加节点服务器的数量,扩充系统规模,不会造成既有投资的浪费。同时,菊花链连接方式减少了线缆缠绕问题,十分适合高密度的安装需求。

亮点四:智能机柜、电源优势

曙光TC4000L电源系统是曙光公司为机群系统设计的专用电源系统,包含了电源检测模块、电源监控模块、负载均衡设计、单片机分时上电设计以及独特的端子排设计,能够支持220V双相电和380V三相交流电,整个机群电源系统的设计符合航空标准。该电源系统可以和机群的监控系统配合使用,将相关信息传送到机群监控系统,显示在主机柜触摸屏上。同时曙光机群电源有着良好的负载均衡设计,能够避免机群中某一路(相)电的负载过重而跳闸的隐患。

亮点五:监控系统

曙光4000L采用曙光公司自行研制开发的硬件监控系统,并且采用独立的硬件监控网络。与软件监控系统相比,硬件监控系统有三大优势,首先硬件监测系统不依赖操作系统,有效避免了当操作系统没有启动或者崩溃时,就无法监控。其次是不抢占节点机资源,采用独立的硬件监控卡,不会于应用软件抢占资源(包括CPU资源、内存资源等),不会影响应用软件的运行。最后不抢占网络资源。

亮点六:品牌、服务与培训

曙光公司坚持服务为本的方针政策,为本项目中,除了提供五年的免费上门服务,7*24小时的技术服务;2小时报障响应、4小时现场响应;48小时内无法修复故障将提供备用机的全方位保证外,曙光公司还了提供所有设备和软件的安装、使用、维护等方面的培训,同时提供并行程序开发、并行软件移植等应用级的培训。曙光公司进行培训的目的就是不但要使用户会用机器,而且要让用户能够用好机器。

曙光集群系统的高性价比,不仅改变了国外高性能集群系统在中国的高价政策,并且在实施能力、周期和后期维护费用等方面均保持价格优势,极大的降低了客户的采购费用。

结语:

高性能计算技术的介入,推动了复杂产品信息化的不断发展。在北航“复杂产品实验室”项目建成之后,曙光公司北航提供的不仅是一个先进、完整、高管理、可扩展的解决方案,也是为复杂产品信息化的建设提供了更快的计算平台。此次曙光公司的成功部署,表明其所具备的行业实力已被认可,对于未来更多高性能计算平台的搭建,曙光公司有信心做的更好