DOIT原创报道: 在2010年,ChinaGrid项目的第二期要建立六个节点,总计的投入只有2000万元人民币,而吉林大学的魏晓辉教授在至强5600发布会上笑称,“幸好学校还没收我们电费”,他向媒体承认,未来高性能计算中心的电费支出将是他这个计算机学院副院长所承担不起的——学校不收计算中心电费不意味着学校不用为每年少则几十万多则上百万的电费犯愁——国内从去年的ChinaGrid大会、TOP100发布会,再到今年与许多高校用户的交流,高校在建设高性能计算中心上的“抠门”与“吝啬”仍然是主流。
“像南大(南京大学)那样的部委院校又有大规模投入的学校毕竟是少数。”不愿具名的高校计算机学院教授认为,如果高校再不重视高性能计算中心的建设、开发、利用,很可能在未来十年,将“只有像国防大学那样的极少几家学校”在HPC领域处于全球领先水平,最终的结果,将是中国整体HPC领域水平的落后。
从建设费用到运费支出,从建设主导权的争夺到交叉应用受限,从后备人才的培养到供应商与系统类型的选择,国内高校教育界的HPC发展道路虽然因“天河一号”而看起来前途光明,但支撑这个行业的人们却仍然在苦苦挣扎。
HPC:从政绩宣传到必备指标
高性能计算中心在高校很长的一段时间内的地位,都类似于“信息化教学样板”或是“高科技学术研究指标”样的政绩宣传指标,2005年前后,国内高校的许多领导开始认识到学校“计算量”这个指标的黄金用法——政绩的黄金指标——HPC成为了标志高校科研工作进入新时代的一种标志。
2005年以后,当高性能计算的热潮席卷而去,全国的高性能计算的建设虽然逐步归于理性,但盲目追求指标、追求政绩的思想降温之后HPC建设的萎缩也很明显,在此之后,全国高校兴起了盖楼风,盖各种以捐助人命名的“XX楼”,甚至大范围的将学校用地转租成为商业用地,盖写字楼、盖餐厅——北京学知桥下某著名高校就有一个高耸的大楼标着“XX酒楼”的红字大招牌,而在这栋楼的旁边,学校的用地被大范围的用于写字楼项目,而这还是一所国内一流大学——据信,该校本不应“缺钱”。
但随着国内各种人才引进计划,如吉林大学魏晓辉教授所说的“千人计划”的开展,高性能计算却成为了一项必备指标——被招才纳贤的人第一句话往往就问:“学校的硬件设施如何?实验室和高性能计算中心水平如何?”——魏晓辉说:“每一位“千人计划”引进来的人都要求工作条件中具备高性能计算。”
不仅是科研学科,包括一些公共学科都在利用高性能计算,而类似理论化学、新型材料、电子、物理、汽车、地球科学、生命科学、生物信息等研究型学科对高性能计算的需求都极为“渴求”,而且不仅是要有,更要有一定规模——魏晓辉说吉林大学就是这个问题,“不是没有,但是没有一个相当规模的学校的高性能计算中心。”
南京大学地球科学与工程学院的教授周会群对此深有感受,在无数的媒体报道中,这位看似完全与计算机学科没有关系的地球科学教授,却是推动南京大学HPC建设的核心人物。
在接受媒体采访时,周会群教授曾多次表示,不管是在传统的气象、地质等科研领域,还是新兴的生命科学、材料科学领域,一直都很注重理论研究。“大量的理论研究,伴随着很多复杂的理论模型,就会引出大量高度非线性的问题,要对这些问题进行精确的研究,自然就对计算能力提出了很高的要求。但是在过去,由于缺乏相应的计算能力,为了某个项目,科研人员甚至要跑到全国各地去寻找可用计算设备。”
有了高性能计算平台,不光是科研人员不用再跑来跑去地浪费时间和精力,而且,在周会群看来,高性能计算设备计算能力的不断提高,更是促进了科学研究的领域和手段不断向前发展——周会群教授坦言,在国外学习、研究期间,自己曾经尝过高性能计算对科研工作带来的“甜头”。所以在回国之后,他就成为了推动南京大学高性能计算的“热心人”。从2004年开始,他就和另外几位“热心”的南大老师一起,积极地开展南京大学高性能计算中心的规划、设计、选型和建设工作。
因此,自2005年开始,周会群就成了HPC的推动者,而在南京大学,周会群并不是唯一的,他的身边有无数的教授和学生极为支持HPC的建设工作。
而在2009年,南京大学也终于建立了以英特尔至强5500为基础的,理论计算能力达到35万亿次每秒的高性能计算中心,但是,这只是差不多是中国高校高性能计算设施的No.1的南京大学,而据广泛的了解,除了北京大学、清华大学、北京航空航天大学、山东大学、哈尔滨工业大学等部委直属院校之外,甚至是大部分的211工程院校,在HPC方面仍然是捉襟见肘,钱、权、房,这三个问题,“一个也不少”。
现实困境:钱 权 房 一个也不能少
对于高校高性能计算中心来说,钱、权、房一样也不能少,缺了钱HPC系统建不起来、计算量达不到规模;少了权,高性能计算中心到底建在计算机学院还是网络中心,抑或是各个学院搞自筹自建就没办法定论;少了房,即使有钱有权,买来的HPC没地方放也不成。
在高校中,相对最好解决的是房的问题,近几年高校教师的住房问题基本上已经社会化解决,学校的单身宿舍和三产的发展也部分解决了以前的住房矛盾,如今在高校中,房的问题主要是集中在建设数据中心的机房建设上??地板、散热、供电、消防??这些问题在很多时间久远的学校都是“困难”,如果考虑到防震、承重、隔音等问题,高校机房的合格率恐怕仅仅会是个个位数。
魏晓辉从学校这次拿到了200万元的基础设施建设的费用,机房装修、专用设备、消防设施和基础建设基本上是足够了,在一定程度上,1100万元的平台建设费用,也足够他建立计算节点、存储平台、高速网络和购买管理软件,但钱的矛盾仍然很突出,主要就是运维费用??高校的人员费用其实偏低??最头疼的就是电费。
正是因为如此,魏晓辉才会有“幸好学校还没收我们电费”这样的半玩笑半感叹??以IBM的x3650 M2为例,其单电源搭载双路四核至强5500处理器之后,电源能耗平均在650-700瓦(标配单电源675瓦),虽然至强5500拥有极好的idle(空闲)低能耗设计,但是考虑到HPC负载的普遍较高,一年下来一台服务器的电费就要3000元左右,更何况一个超算中心动辄几百上千台的服务器,以及大量的四路服务器,再算上部分采用胖节点技术设计的高性能计算单元??一年的电费有个几十万显然是家常便饭。
不过,在钱和房之外,权的问题也不能忽视??网络中心、校园网络自然有网络中心的人去管,但HPC谁管?又有谁能做或是该去做超算中心这件事情,却是很多学校悬而未决的事情??在很多学校,计算机系并非HPC中心的牵头者,而是各院系各自为政。
在记者就此问题征求魏晓辉的意见时,他认为计算机学院做HPC的好处要大于麻烦和劣处,“一方面中心建设是第一步,更重要的以后怎样发挥效率和功能,需要计算机方面不是简单的设备维护人员,需要懂高性能计算的人员,计算机学院有这方面的人才和科研的基础。”不过,这并不是说HPC一定要由计算机系来做,作为在HPC领域很前沿的学校,南京大学就是依托天文学院来做的。
但搞计算机的人做HPC还是有天然的优势的。相比各个专业学院,计算机学科对HPC的建设、运营以及算法优化、应用程序优化都更为熟悉,后期维护和各个院系对计算量的使用,也并非网络中心能够解决的??建设曙光5000A的时候,曙光的工作人员和中科院的工作人员奋力了几个月才做完了调优,而著名的TOP1,Roadrunner,在地下停车场待的时间可能要比在数据中心中待的都要长。
“这样一个设备拿到计算机学院来说还有一个好处,对计算机学科发展是有好处的,可以推动学科向前发展。既向学校提供的服务,同时对这个学科本身也是有好处。”其实,无论是谁牵头做,有了熟悉HPC、了解应用的人去做,HPC才能够做好??显然在这方面计算机系的人才是最熟悉和了解HPC的,而另一方面,供应商的工作也要做足才行。
不过魏晓辉也透露,在吉林大学有一个类似“校方高性能计算用户委员会”的组织,进行HPC中心的核心决策、管理和预算计划,而据他所知,山东大学、浙江大学都有类似的体制,而高校HPC未来也将成为地区性的高性能计算节点,进行些商用、民用和国家应用尝试。
高校建HPC:理清应用是关键
去年8月的ChinaGrid大会上,服务器在线曾见到过两位英特尔服务于高校和HPC的专家:英特尔(中国)有限公司亚太客户响应团队技术经理何万青博士、英特尔(中国)有限公司企业解决方案部教育行业中国大区经理姜涛先生,当时,何万青博士提到他的一项重要工作就是:“帮助高校客户理清他们的应用特点,即针对他们的HPC应用进行特性分析。”而这,也是高校建HPC的关键。像在魏晓辉的高性能计算中心里,就不仅仅有瘦节点的架构,还有胖节点的HPC。
正是各个应用的不同,才导致了各个院系之间对HPC需求的不同,当然,题外话,核心的话题是,不应用所体现出来的特性不一样,有的是内存敏感型,有的是主步敏感,有的是I/O敏感,所以,建设HPC要从几个重点,如处理器、内存、IO、网络负载等方面去着眼,经过大量的应用程序分析,确定HPC中心常用的应用程序的负载类型,然后才总结出其应用的特性,最终进行正确的设备选型??像气象研究就是缓存和内存敏感的应用程序偏多,处理器主频并非核心影响因素,像魏晓辉测试至强5600的VASP就是内存敏感型,在英特尔的测试中,最大内存使用达到1GB,每个核心的内存通道带宽需要3.2GB/s,而分子模拟方面的Amber10程序则只需0.2GB/s的内存带宽,类似的还有GROMACS和DACAPO。
在这方面,英特尔是走在前沿的,在至强5600发布会后的采访中,英特尔解决方案部中国大区技术部经理梁岩先生就表示,“将来国内的大部分高性能计算除了强调科研成果的同时一定要考虑商业运作的支撑能力和支付能力,一个是应用的实际效果,一个是成本和产出比考虑,是整个系统综合的效能是一个关键因素。”因此,英特尔会和合作伙伴、OEM、最终用户会持续关注应用的特征模型,帮助他们找出中间关键性能的点,从CPU、主板、I/O的吞吐能力整个系统的协调能力和软件优化层面多方位和客户一起合作。梁岩说,这项工作是英特尔从去年一直到今年,再到未来都会去做的事情,大家会“在一些项目里会陆续看到一些最终优化完的实际效果的展示案例出来。”
而在魏晓辉建立新HPC中心的招投标过程中,英特尔和其OEM合作伙伴,在这方面做的显然要比竞争对手好得多,这从魏晓辉的回答中已经能够得到答案。不过,魏晓辉也毫不掩饰的表示,选择最后的供应商和英特尔平台,“很简单就是性价比决定的”。
HPC“旧”蓝海:打“葛朗台”的算盘
之所以称高校的高性能计算中心建设是HPC“旧”蓝海,主要是因为高校建立HPC的意愿和需求是长期以来存在的,但是其在升级、大规模建设以及新一代数据中心建设上面的积极性却并不高,而另一方面,新时代学科研究和教学都需要完善的高性能计算平台来进行支撑,所以,高校的高性能计算建设既是蓝海又是长期固有的。
高校HPC中心长期以来之所以不能得到释放,建设费用的吃紧是一个重要原因,而更深一层的原因则包括HPC的利用,以及HPC的升级换代??在高校,HPC的升级比初期建设要困难的得多,我的一位亲戚在北京某高校任职汽车学院教授,院里校里都对HPC很重视,在国外的汽车学院,拥有完善的工业设计、空气动力学测试、力学测试的HPC中心司空见惯,但是该校的汽车学院的HPC中心已经三年多没有过升级,即使是非HPC的服务器应用,其生命周期也已经进入了晚期。
这也就是为什么像至强5600这样的处理器能够得到魏晓辉青睐的原因,正如他的测试结果所显示的,至强5600对比一年前的至强5500,在相同的微架构平台上??意味着无需更换主板、机箱和内存??随着制程工艺从45nm走向32nm,实际应用性能/耗电(性能功耗比)提升了22%,每核的功耗下降明显,可以说,至强5600不仅提高了科学计算的效率,更大幅度实现了绿色计算的数据中心愿景,当然,减少电费和工作时间,提高单位供电上的计算量都有着极大的帮助。
而对于普遍升级困难的高校HPC中心,至强5600这样的处理器足以拨动“葛朗台”的算盘??主要原因自然是价格和性能比优异??新的至强5600提出了对原有单核服务器15:1的整合率,而这也就意味着,高校的HPC中心能够提高至少超过10倍的密度,计算密度的提升则显然会更高。
相对于一年前发布的至强5500,新的至强5600面向高性能计算的性能提升能够达到63%,六核心的新处理器除了核心的增强外,L3高速缓存从8MB升级到了12MB,最高主频提升从2.93GHz提升到了3.33GHz,而相应的CPU浮点性能从46.88GFLOPS提升到了79.92GFLOPS,而在低功耗DDR3的情况下,还能够节省达到0%的内存耗电??最可贵的是,每千片至强5600的价格和至强5500是一样的。
而另一个有力证明是新一代的至强5600最低端的L5640的性能,与上一代最强的至强5570是几乎一致的,而功耗却从95瓦下降到了60瓦,功耗降低达到60%。
减少了三分之一的耗电,大幅度提升单位面积上的计算密度,价格却变化不大,这些省钱、省地方的特性尤其能够打动校领导的“心扉”,而且魏晓辉说:“校领导比较喜欢新的,最先进的东西。”??3月17日发布的至强5600,现在才刚刚开始升温。
当然,谈到至强5600只是一个例子,在面向不同的市场和定价策略时,高校建设HPC平台完全有多种选择,至强5600是一个选择,面向胖节点的至强7500也是一个选择,而面向替换RISC架构的安腾9300也并不是不能够建立好的HPC平台,对于高校来说,针对实际的应用,面向未来的学术研究和实验科研,才是最终选择HPC平台的主要参照物。
除此以外,钱、权和房的问题,其实都并不是不能解决的,但如果平台建设从根本的理念上不能够树立面向应用、提高能效、长期发展的理念,其实才是建设HPC平台最可怕的失败。