刘光明:Tesla架构天河一号A推动超算应用

2010年,国家超级计算天津中心在天津经济技术开发区正式建成我国自主研发的“天河一号A”超级计算机,在LINPACK基准测试中,该计算机性能高达2.507 Petaflops,当年即荣登全球超算性能榜首位置。

这一历史时刻相信经常关注超级计算机的朋友们都不会陌生,就是因为天河一号A的成功,让我国正式步入了超算大国的行列,也引起了之后两年来各个国家的“超算之争”。天河一号当时提出来异构融合的结构,也就是CPU+GPU的组合,之后便成为了HPC行业的一种趋势。

国家超级计算天津中心 刘光明主任

NVIDIA公司PSG全球副总裁Shanker Trivedi

今年1月,天津经济技术开发区、国家超级计算天津中心以及NVIDIA(英伟达)公司正式举行签署仪式,三方将共同打造联合实验室。该实验室意在提升国内超级计算机技术整体水平,培养更多的超级计算机技术人才,从而有力带动中国的科技进步和经济、社会发展,并且推动CUDA,OpenACC,Cloud Supercomputing技术的开发和应用。借此契机,本站记者有幸采访到了国家超级计算天津中心刘光明主任与NVIDIA公司PSG全球副总裁 Shanker Trivedi,来关注一下专家对未来超级计算机的展望与分析。

天河一号A采用领先的CPU+GPU计算架构

“国防科技大学2005年到2007年就在研究,用通用CPU与GPU加速器结合,当时自己做了一个流处理器,结合起来之后发现有很大一类高性能计算机的应用,像流体力学、气动力学、FFT、CFD的东西,包括还有很多算法都适合这种结构,解决很多复杂的数学问题,这种结构是适用的。”国家超级计算天津中心刘光明主任表示。

此后,在2009年天河一号做第一期的时候,当时因为要做一个实用性能比较高的系统,所以就选用了AMD的GPU来替代当时国防科技大学自己研究的流处理器,这样就诞生了当时的天河一号,这个机器当时排名是世界第五,亚洲第一。

后来国防科大发现了Tesla 2050,因为AMD的GPU没有ECC校验,而Tesla有ECC校验,所以在2010年的时候,做了升级,GPU换成了NVIDIA的,同时高速互联系统换成国防科大自己的银河高速互联,同时强化了操作系统,升级了之后又做了一些优化,便诞生了举世瞩目的天河一号A。

天河一号A的GPU计算节点

国产处理器飞腾入驻天河一号A

谈到硬件方面,刘主任表示:整体上这个系统分成两部分,一部分是Intel的CPU加上 NVIDIA的GPU构成了一个现在新的系统,这个系统在整个所有天河系统的7/8,另外1/8的部分是用国防科大自己的CPU,即:飞腾1000。这套系统应该说是实验优化的环境,有很多科技计算的程序,一些应用都在这上面做测试,做实验,有一些应用也是一种实际的应用,不断的调试、测试和完善。

GPU异构已经成为当今HPC的潮流

谈到GPU近几年的飞速发展,NVIDIA公司PSG全球副总裁Shanker Trivedi显得非常兴奋。Shanker认为,天河一号A向全世界证明了异构超级计算是一个非常好的科学计算,也是超算中心发展的方向。接下来全世界超算中心纷纷采用了GPU加速并行计算这样的体系结构,像美国的高性能超算中心、德国的超算中心,都是在其国家或者地区最大的系统,这些系统都纷纷的采用了GPU加速并行计算,而传统的超级计算CPU只贡献了整个高性能计算的10%左右,甚至还要更小,但是GPU贡献了大部分,甚至是80%、90%,很多很多都是计算性能是从GPU贡献出来的。

异构系统能够极大降低功耗

应用方面,Shanker表示现在有300个以上应用软件。大量的应用软件,解决科学问题的工具已经可以在CPU+GPU这样的异构体系上运行。未来高性能加速计算的方向,已经是一个超算的新纪元,这些进步是大家公认的,被科学界,被学术界,被产业界广泛采用的一个体系结构。

关于未来的发展,Shanker认为有一点非常非常重要,因为摩尔定律要把计算机每十年涨一千倍,现在涨一千倍不是玩笑,但是同时电力消耗非常非常大,现在NVIDIA可以用新的异构计算加速的方式,为未来大大的节省超算中心构建的成本,同时节省功耗,降低能源功耗,节省费用。

天河一号A推动了国内超算应用

一直以来,超算中心面临的最大问题就是闲置,如何能够提高使用效率已经成为迫在眉睫的问题。相比之下,国家超级计算天津中心在应用方面做的还是非常不错的。据刘光明主任介绍,天河一号A这种异构结构的几个典型应用还是颇具代表性的,最典型的石油勘探数据处理,经过天河一号A,已经完成了具有自主知识产权的石油三维历史偏移。

此类软件过去掌握在国外公司手上,购买价格非常高,核心的部分还不外卖。现在通过天河一号A,从2011年年初开始跟东方物探进行合作,持续做了两年的时间,整体性能从通用CPU的版本上升到CPU+GPU的版本,整体性能提升了大概六倍。

同时超算中心在这个基础上又做了一个基于计算系统做的优化,磁盘的数据处理系统变成一个基于内存的。另外包括现在的气动力学,大飞机的仿真,还包括一些典型的应用,包括还有一些源的分析等等这些,现在应用都不错。

联合实验室助力区域发展

国家超级计算天津中心此次跟NVIDIA成立一个联合实验室,主要是两个方面,一个方面就是在异构结构上,用NVIDIA一些新的软件提升用户使用的效率。第二个层次,基于天河一号A新的通信处理技术、硬件和软件,针对当前热门的云计算,物联网,智慧城市以及三网合一,这些方面超算中心要跟NVIDIA进行深度合作。落在滨海开发区,带动本地高端信息产业的发展,也做一个示范,带动我们国家在这些领域的快速发展。

天河一号A的诞生不仅仅是当年的全球第一名,也为我国超级计算机发展注入了一针强心剂,由此极大带动了国内超算的飞速发展,此外还在应用方面有了长足的进步。从HPC行业整体形势来看,CPU+GPU已经成为了一种新趋势,所带来的是超高的性能和更低的能耗,这一点是传统基于CPU的系统所无法比拟的。除此之外,我们更加关注异构环境的编程与软件,经过多年来的耕耘,也看到了NVIDIA在 CUDA和OpenACC等方面的进步,但进一步的发展还是需要更多企业与用户来共同推动。硬件方面,GPU的功耗问题一直是业内关注的焦点,相信更多的产品类型、更低的功耗将会成为新一代GPU的发展方向,让我们拭目以待!