TOP100:混合架构助中国迈入千万亿次

DOIT多易网 HPCChina2009 长沙现场报道: 随着张云泉博士所作报告《2009年中国高性能计算机发展趋势分析与展望》的发布,在中国HPC最受瞩目的榜单:中国高性能计算TOP100,于今天在湖南长沙正式发布,出人意料的是,作为本次TOP100活动的最大“黑马”,貌不惊人且此前从未经人透露过的由国防科技大学设计、制造的天河一号,以突破千万亿次的惊人性能,获得了本次TOP100排行榜的“状元”,而这也是经过多年对HPC领域的研发后,国防科技大学首次登顶TOP100排行榜榜首。

作为863 “高效能计算机及网格服务环境”重大项目“千万亿次高效能计算机系统研制”课题成果,国防科技大学自主设计、研发、生产的天河一号由国防科技大学与天津滨海新区合作,将作为国家超级计算机天津中心的业务主机,部署于天津市滨海新区,成为中国国家网格计算的主节点。

本次TOP100的推出,意味着中国已经拥有自己的PFlops级别(Peak值,以下同)超级计算机,成为全球第二个拥有同类超级计算机集群的国家,而本次榜单的许多亮点,也让中国TOP100成为了2009年中国高性能计算行业、服务器行业、芯片行业最为突出的一次会议,而其中所显露出的一些特点则显示了中国高性能计算领域的发展和独特的设计思路。

天河一号:效率仅及最高者一半?

在本次榜单中位列第一的天河一号自然引起了与会者的极大兴趣,而包括服务器在线在内的诸多与会媒体都对这个“横空出世”的千万亿次超级计算机感到不可思议,在本次会议前,媒体纷纷猜测曙光5000A将以多大的性能提升来显示曙光在系统调优方面的新进展,但是,在迈入会场之后,发现一套名为天河一号的HPC摆在会场中,许多媒体已经看出了端倪。

天河一号的出现吸引了许多媒体的目光,从目前披露的相关资料和TOP100榜单显示,天河一号峰值性能达到每秒1206万亿次双精度浮点运算,拥有6144个英特尔至强处理器,以及5120个加速处理器,内存总容量高达98TB,点到点通信带宽为40Gbps,共享磁盘总容量为1PB。

在节点方面,天河一号由2560个计算节点组成,每个节点采用两个英特尔四核至强5500系列处理器,配备32GB内存,此外共有512个服务节点和2560个加速节点。

但是,令人们吃惊的是,天河一号虽然Linpack数值达到了563.1Tflops,系统效能也超过2009年6月发布的Green500第五位,达到431.7MFlops/w,但是效率却仅为0.467,不仅普遍低于本次TOP100排行榜上的其他高性能计算系统,更是比第七名,南京大学的高性能计算系统的0.920的效率,低接近50%。

在发现这一情况后,记者迅速查看了天河一号的互联通信子系统的情况,发现天河一号采用两级Infiniband QDR互联,单个通信链路的通信带宽为40Gbps、延迟1.2μs,这远比大量采用10GbE互联的高性能计算系统的效率还要低(一般采用GbE连接的HPC效率能够达到0.5以上,而如果采用Infiniband,则一般都会在0.7以上,甚至会达到南京大学那台采用400×2的英特尔至强5550+Infiniband系统的0.92)

由于天河一号由国防科技大学研发,很多技术和特性上仍然受到保密协议的管理,在有媒体请求采访相关领导或工程师时,基本上都遭到了委婉的谢绝,并表示会在适当时候更多的披露,而在记者致电国防科技大学方粮博士时,也了解到国防科技大学对于天河一号的重视,以及很多技术细节上目前是否能够披露还需要假以时日。

不过,对于天河一号的效率问题,有相关人士猜测,其可能基于国家科研、实验的考虑,采用了国内自主研发的互联系统,而Infiniband的说法不过是“部分采用”,而由于技术尚未成熟,可能其效率受到其制约不能完全发挥出来。

而从其他途径,服务器在线记者了解到,天河一号的效率问题很可能与其所采用的混合计算架构有关——天河一号除了采用英特尔至强5500系列处理器之外,还采用了ATI Radeon处理器(也就是通常我们所说的GPU)作为加速单元,而混合计算系统在Peak数值上面虽然可以突破千万亿次,但是在效率上面很可能会出现这样的较低效率——事实上,此前在媒体采访中,已经有国外的一些案例证实,非混合计算系统,比如全部采用至强5500+Infiniband的组合,其效率甚至能够达到0.9。

当然,这也是排行榜上首次出现CPU+GPGPU混合加速的PFlops机器,对于混合计算尤其是图形计算等特殊领域的需求,并不妨碍天河一号这样的混合计算系统发挥其强大的计算性能。

中国HPC厂商:略有上升仍未质变

2009年中国TOP100的总Linpack性能达到2.2PFlops,远超2008年的1.036PFlops,且全部系统的峰值超过8.1TFlop,尤其是国产历史上首次出现峰值超过1PFlops的机器!比预期的时间提前了1年??这些数据都成为本次TOP100引人注目的部分,但是本次TOP100有更多需要深刻挖掘的内容。

从供应商上来看,国内厂商的排列座次基本上没有变化,曙光以27套系统上榜的战绩依旧位列第一,而浪潮、联想、神威、宝德分别以6、3、3、3的上榜名额位列国产厂商前列,而本次TOP100也是曙光首次超过IBM的26套,成为排行榜上的第一供应商。

但是从整体榜单上仍然会看到少许不尽人意的地方。

首先,本次TOP100上的国产机器厂商只有曙光、浪潮、联想、神威、宝德、国防科大和北京市计算中心等上榜,数量由去年的九家下降为七家,而从Linpack性能来看,国产机器的性能比例为59.31%,比2008年的55.93%只有小幅提升,而国外机器从2008年的44.07 %,仅仅小幅下降到40.69%。

此外,从性能提升比率上,TOP100的年比增速从2008年的3.29降低到了2.12倍,而国际上平均性能接近22Tflops的时间为2008年6月,相差为1年半, 差距不变。

在采用的芯片和架构方面,采用通用芯片特别是国产通用芯片的PFlops机器仍然有待出现,而在性能方面,通过与英特尔公司产品经理顾凡的沟通,顾凡表示,Linpack突破1PFlops大关的机器目前离实现还比较远,而这是需要考虑的一个问题。

最后,在本次大会上,来自上海超算中心的观点表示,当前国内高性能计算的应用仍然以国外计算软件为主,这对我国的能源、工业制造等基础产业的发展带来极大的制约,而这也是上海超算中心推出“科学应用规模倍增活动”的原因。

CPU+GPU模式受到国内厂商推崇

本次TOP100的发布,间接的为过去一年中,CPU+GPU的高性能计算系统设计方式“正了名”,得益于天河一号夺得排行榜首位,大量的讨论和媒体采访,都集中在了有关CPU+GPU混合架构的话题上。

目前,国内的服务器厂商,如浪潮、曙光、联想和宝德,皆选择与国际上的GPU两大厂商nvdia和ATI进行合作,在个人超级计算机上,普遍采用CPU+GPU的混合计算方式,将GPU作为加速处理器,满足中低端,或称入门级HPC市场的用户需求,而反观英特尔,则在Larrabee推出前几乎很少提及。

针对有媒体记者提问有关国内服务器厂商对这种混合计算模式未来发展的考虑,宝德公司的陈齐旺的回答具有一定的代表性:“CPU+GPU的方案,推出后面向市场还是有评价,比较大的挑战是程序优化和编程方面,可能采用其它的方案。”来自浪潮公司的刘军也同时表示,无论是谁的解决方案,ATI也好,NVdia也罢,主要看使用环境,看编译环境好不好用,此外,他本人“更希望看到英特尔把Larrabee发布出来,桌面超算希望是Larrabee+CT的技术。”

曙光的李宁对于这个问题表示,她希望看到更加开放的环境,所有的使用者都会更在乎使用环境,不希望被另一种环境排至,专有的路会越走越困难,因此,曙光希望能够提供给用户多样化的选择。

一同参加专访的国内高性能计算领域资深专家,来自联想的祝明发教授表示,中科院已经准备推出一批CPU+GPU的桌面系统,他认为在高性能计算领域,中国新的千万亿次计算机天河一号的CPU+GPU模式已经说明,这是一条可以发展的道路。

而对于有关CPU+GPU模式的处理效能问题,在茶歇时服务器在线记者采访了来自中国科学院超级计算中心的专家,有专家表示,这样的模式目前遇到的最大问题是虽然能够将双精度计算量提升很高到PFlops,但问题是,现在包括中科院超算中心在内的很多机构和用户,还都没有适应混合计算模式的应用程序,这成为了CPU+GPU模式发展的最大障碍。

英特尔公司产品经理顾凡针对此问题表示,英特尔最关注的是是否有应用可以完全发挥HPC的性能,以及如何提高应用程序在HPC上的性能,英特尔将会在HPC领域发挥专长,让芯片技术以“可接受”的成本进入市场。

此外,在本次采访中,浪潮公司的刘军透露,“明年在山东,会有千万亿次计算机成为国内最大规模采用国产处理器的高性能计算系统。”但刘军并未透露,浪潮公司有关此项目的任何信息。