ChinaGrid2009:折射中国HPC建设趋势

DOIT原创分析:在2005年,ChinaGrid就已经完成了其第一期的建设工作,但是,直到2009年中旬,第二期的工作才再次开始,在这期间的几年里,无论是网格计算、服务器技术还是多核处理器、HPC架构,都已经发生了翻天覆地的变化,当2009年再次在山东烟台召开ChinaGrid2009学术年会时,我们能从第二期的ChinaGrid建设上面看到什么趋势呢?

在8月20、21日连续参加了两天的ChinaGrid2009学术年会,并见到了专家组副组长郑纬民教授、英特尔负责高性能计算的总经理Richard Dracott、服务器平台事业部产品经理顾凡、英特尔软件与服务集团中国客户响应团队工程经理何万青等人之后,对于ChinaGrid2009学术年会所展现的中国HPC建设的趋势和发展方向,一个初步的轮廓已经展现出来。

“HPC建设将会变得更加注重性能能耗比”和“采取非Linpack的方式对HPC进行评价”——通过本次ChinaGrid2009学术年会,以上两点正显示出成为HPC行业发展趋势的潜力,在本次会议上,无论是郑纬民教授还是Richard Dracott或是顾凡等人,都给予了详尽的阐述。

HPC建设将会变得更加注重性能能耗比

作为清华大学教授、ChinaGrid专家组副组长的郑纬民教授在谈到目前各个学校非常积极的申请ChinaGrid时谈到那些申请的学校有些:“搞不清楚啊。”

郑纬民教授在接受媒体采访时谈到,“说句实话,其实他们还没有想明白,我昨天已经给他们泼了一点冷水了。你想想看,我给你300万,你还要出500万,还要照规定盖一个机房,但是至少要装修一下吧!还要买空调,每年的电费好几百万,这些事情都要跟校长说清楚。但是他们都还没有跟校长说呢,你想想看,说500万,要装修、空调100万分掉吧!每年的电费300、400万,这件事情一说,校长不一定(会同意)。”

郑纬民教授的感触来自于多年来对ChinaGrid建设的经验积累和对业界发展现状的深入了解,目前,大量的数据中心的PUE(电源使用效率)比值为2:1,这也就意味着,更多的电力并不是被用做计算、存储或是传输数据,而是被白白的浪费掉了——英特尔服务器平台事业部高性能计算业务总经理Richard Dracott的体会是:把更的能耗放给计算,而不是把更多的能耗浪费在散热方面,这是一个非常重要的问题。

无论是郑纬民还是Richard Dracott,在ChinaGrid学术会议上谈到这样一个问题或许是种必然,对于教育行业的用户来说,拿出500万结合国家批复的300万建设一个数据中心本已经是捉襟见肘,按照郑纬民教授测算的“估计做一个二三十万亿次到五十万亿次或这个可能性是有的。”来说,其实看起来数字很高,但是仅仅6个中心的建设量即使是放在100所“211工程”学校里,也只是石沉大海而已,而如果再让学校负担上每年数百万的电费和散热、管理成本,本已经不富裕的教育经费,将会造成极大的浪费。

另一方面,根据Dracott所给出的曲线图,HPC的性能的发展速度已经超过了摩尔定律,或者说,超过了处理器性能的发展,这也就意味着,大量庞大、复杂的系统被制造出来,如果不节能,随着越来越多的这样的HPC制造出来,也就意味着,一个又一个电费无底洞出现在数据中心内。

从ChinaGrid2009学术年会上我们能够看到,大量的学校虽然还没有看到电费或者说是能耗支出成本的不断攀升,但是,我们已经能够感觉到“大干特干”之后很可能出现的后续维护费用的“爆缸”,因此,我们才会看到,无论是厂商代表还是专家组,都已经开始着重讨论有关HPC的节能趋势的话题,这也就意味着,在厂商代表和专家组的共同推动下,以ChinaGrid二期建设为榜样,“HPC建设将会变得更加注重性能能耗比”而不是盲目的追求性能的提升——当然,性能的提升是非常重要的,不过,除了节能的提高性能之外,如何衡量性能也是一个必须要考虑的问题。

目前,有相关数据表示,Google在建的数据中心要将PUE数值降低到1.1:1,且已经有部分处在1.11:1的范围内,而微软的数据中心的PUE值则约为1.6:1,相对这样节能的数据中心来说,ChinaGrid二期的建设标准是一定要有所考虑的,不仅因为这是一种趋势,更因为这将极大的改善数据中心的效率和运营成本。

采取非Linpack的方式对HPC进行评价

采取非Linpack的方式对HPC进行评价??对目前Linpack体系持有怀疑和“部分弃用”态度的,主要是英特尔软件与服务集团中国客户响应团队工程经理何万青和英特尔公司千万亿级产品线架构师David Scoot博士。

对于目前千万亿次计算机的可用性,David Scoot持有保留的态度,在ChinaGrid2009的技术讲座中,他指出,他本人很渴望看到在千万亿次的超级计算机上面运行的真实的应用程序。言下之意,目前的应用程序不能发挥出千万亿次的计算能力,而且Linpack计算出来的千万亿次,是否能够在应用上达到千万亿次的“标的”,很可能还是个未知数。他甚至向记者表示:“Cray的美洲豹选错处理器啦,对于这台机器和IBM的走鹃,我本人非常渴望看到真实的应用程序在上面运行。”

事实上,在此前的大量文章中,我本人已经对Linpack能够客观的评价HPC的真实性能,尤其是面向应用的真实处理能力表示了怀疑,而何万春在讲座开始时也表示:“Linpack不是最佳的评估高性能计算系统的测试标准。”

只是与我更为推崇多种测试方法取几何平均的方法不同,何万春更为推崇的是面向应用或者说面向对象的测试方法,“面向应用的HPC测试标准,可以提供最佳的系统测试,从而帮助HPC用户快速选出适用的系统。通过采用英特尔的调优工具,系统可以‘压缩’出更大的应用空间。”

对比主频3.2GHz的至强5482和2.93GHz的至强5570,由于后者的主频略低,因此在Linpack测试中并不占优,但对于石油油藏模拟、气象等需要大内存的应用来说,由于至强5570采用了QPI和集成内存控制器,能够提供更大的内存容量和内存带宽,总体应用性能却会有2-3倍的提升,而这是Linapck测试所无法体现的,如果用户以Linpack值来选型,就会误入歧途。

何万青所提出的面向对象的Benchmark,基本可以理解为“针对不同的应用,把应用特征摘取出来,进行针对性的测试。”对此,何万青举例表示,在香港天文台,采用Linkpack进行测试其应用的时候,hypertown和Nehalem是一样的,但是具体到三个特殊的针对应用的测试,Nehalem的提升是非常高的,在气象上这一点非常常见,因为气象应用往往更多是对内存敏感型的,而不是频率敏感型的。

因此,对于未来的HPC的测试方式,更可靠的方式并不是Linpack,而是应该采用针对不同应用、不同对象和不同需求的针对性测试,找到影响应用性能的几个重要技术指标,设计相应的性能评估模型(变动某个指标会对性能造成什么样的影响),确定合适的测试应用和负载,而不是单纯的使用Linpack。

相信这样的测试方法,将对用户端评价HPC产生很大的影响,尤其是用户能够根据自己的应用不同来选择不同的HPC系统,而不是为需要高主频的应用购买大内存带宽的机器,或是为需要高IO的应用购买高主频的HPC集群,这对于将包含8大学科的ChinaGrid二期工程来说显得尤为重要??在采访时,郑纬民教授言必称“没钱”,如何为应用寻找最合适、最高性能的HPC,应该是最省钱的办法了。