HPC TOP500只是竞赛 异构计算志在数据中心

从天河一号登上Top 500榜首那一天起,我就赞同一个观点:中国的高性能计算行业将从追求排名为主,向注重应用软件开发,解决实际应用问题的方向发展。毕竟商用的CPU、 GPU、InfiniBand互连、开源Lustre文件系统都是成熟的东西,能做出来的下一步是要利用好…

笔者初次来计算所是1998年,参加一个关于PC维护方面的培训;2002年曾过来组装过一台双路Intel Xeon 2.4GHz CPU、SuperMicro主板+勤诚机箱的服务器,那次在楼里还路过了倪光南院士的办公室。如今到这里采访,原来的大门和招牌已经被现在高楼前的地标所替代。

中国科学院计算技术研究所——英特尔联合实验室揭牌仪式昨天在京举办。旨在通过进一步扩大科技开放合作,提高我国科技发展国际化水平,在更高起点上推进自主创新,中国科学院计算技术研究所与英特尔正式签署研究与发展合作协议,通过整合双方资源优势,共同推动中国科学研究技术发展。中国科学院计算技术研究所所长孙凝晖博士与英特尔资深院士、数据中心及互联系统事业部首席技术官、英特尔架构事业部和数据中心及互联系统事业部前瞻研究部总经理 Stephen S. Pawlowski 先生参加了本次揭牌仪式。

本次签署的研究与发展合作协议将会以英特尔与中国科学院计算技术研究所共同建立的联合实验室为平台,凭借英特尔对于微处理器、芯片组、软件和计算与互连产品的设计、制造与分发等优势,与中国科学院计算技术研究所在信息科技领域的研发资源整合,展开针对即将面世的英特尔集成众核架构(Intel MIC )平台的领域编程与优化、应用程序调优以及开发数据中心评估基准,更加深入地探索高效的数据中心服务器体系结构,开发相应的硬件和软件系统,特别是基于英特尔至强处理器与英特尔集成众核架构的混合架构系统。同时合作的研究方向还有通过基于英特尔至强处理器平台针对基因测序的可重构计算系统等。

大规模并行计算将不局限于HPC

ChinaByte比特网:“我想问一下孙所长,您觉得使用Intel MIC(Xeon Phi)异构计算的产品,与曙光6000这样的CPU+GPU异构HPC相比有哪些优势吗?”

孙凝晖:“我们共同认为异构计算,无论是Xeon级的超级计算机,还是数据中心级的超级计算机都是同样的发展方式。通用的结构在现在的能耗下追求效率,不仅仅是追求速度,它不能解决所有的问题。或者在极端负载下不是高效率,通用平台只有在负载不那么极端的情况下做的挺好。我们认为这样的异构平台应该是高性能计算的技术,也能够用到量大面广的企业级计算。如果某一项主流的技术只用在高性能计算里是没有生命力和市场的,这是我们共同的看法。

我们不去做特定于高性能计算领域的很狭小市场的技术,这和计算所一贯追求的目标,有三个关键词代表我们的技术,算的快、应用广、易产业化。我们研究的技术,开发的技术,一定要在这三个维度都能够有所帮助,要算得快或者算得多,数据中心应用是算得多,第二是应用广,不能只支持十个算法、两个用户,那这个是很难有前途的,第三要易于产业化,有些技术虽然很好,很多好技术但是最后死掉了,因为不易产业化。所以下一代的高性能计算机,十亿次、百亿次的一定是这样的异构平台。

针对MIC我们要做三部分的工作:第一、算法和编译器的研究,对性能进行优化;第二、中国当前的数据中心用户负载特征已经比较明显,我们想从中抽象出一些作为BenchMark,就像SPEC CPU2000(2006)和LINPACK是测试计算性能那样,现在我们缺乏对于数据中心的基准测试;第三、缩短众核用户的开发周期。”

孙凝晖博士在揭牌仪式中讲到:“这次与计算创新领域的全球领先厂商英特尔公司合作,将会结合英特尔公司在计算架构和半导体技术方面的优势,并紧密结合中国国内科研对高性能计算的需求,充分发挥各自的技术优势,为关键领域科学研究实现原创性重大突破提供创新引擎。”

TOP500仅是一项比赛,计算定制通用十年轮回

ChinaByte比特网:“目前国际上的HPC TOP500,和国内排名前几位的系统中,都有以RISC架构CPU作为主要计算单元,并包含部分自主知识产权(核心技术)的系统入选。而曙光近些年研究和生产的超级计算机都是x86平台。请问您站在计算所的角度,怎样看待RISC架构在编程和应用性方面的不同,以及自主知识产权对本国的意义?”

注:这个问题,我其实是想得到孙所长对江南所研发的神威蓝光,以及富士通“京”这些产品的看法。

孙凝晖:“自主知识产权首先肯定非常重要,没有自主技术根本没有机会做领先的事情,这是毫无疑问的。这并不是中国独有的问题,世界上任何一个领导型的国家或者领导型的企业一定要有自主知识产权,所谓自主的核心技术、自己的核心部件,不然就是二流角色,是跟随者角色,是价值链、产业链的末端。这和某一个技术选择没有关系,是两个维度的事情。我们中国过去在这方面追求的太少了,我们能够拿出来参与国际竞争的东西太少了,所以我们要更多地在这方面投入力量。

至于RISC这个问题,谈不上谁好谁坏。我们以前可能是站在比较低的位置上看世界,觉得这个很奇怪,总是用阶级斗争的想法。其实这个世界是多样性的,中国现在应该更加自信,我们应该站在国际舞台上,站在更高的地方来俯视来看,这样就一点也不奇怪了。不同的人、不同的用户需求不同,都可以Enjoy在他们喜欢的东西里面。

你看TOP500仅仅是一项比赛,仅仅是奥运会的一个110米栏。我们无非是刘翔赢了一次金牌,但是可能下次摔倒。里面有一些机器赢得了奥运会的金牌,但并不代表它们有市场。当然除了这些满足企业广大用户的机器,还有和国家安全有关的应用、有关的需求,美国有、中国有,那些应用并不需要考虑市场,所有世界大国都需要这样的技术,都在做类似的事情,可能TOP500里面有几个高端机器是面向那个目标的,也是非常有价值的,应该全力以赴做的,但是不代表有市场,我们更多影响老百姓普通生活的那些东西也是非常重要的,iPhone难吗?你会做吗?它也是非常要紧的事情。所以这是不同维度的事情,都非常重要。”

还有记者朋友提问:“高性能计算应用领域根据行业不同软件的差异化、定制化比较明显,请问孙所长,以后有没有专门针对于不同行业进行软硬件系统的研究和优化,或者说现在有没有针对于行业应用的研究成果?”

孙凝晖:“现在有一个专业词“Co-Design(定制设计)”,当计算机技术或者处理器技术发展很顺利的时候不需要,就是摩尔定律很顺利时我们只要等着就可以了,为什么今天需要(Co-Design)呢?今天这些技术,尤其是半导体工艺的限制,所以我们把结构弄的更加复杂,这其实是不可持续的。可能这十年没有办法,也许现在都在做(Co-Design)了,看未来十年二十年后,肯定另外一个进步会减少我们的工作量,让用户更容易达到他的性能。现在没有办法,所以看到这么多的多核、众核结构。

其实用一个复杂的、并且是多样的结构来面对这些新需求、新应用,这其实是很糟糕的一个方式,但是这一段方式我们只有这样做。我们看计算技术发展历史都是这样的,现在处在计算机是发展的低谷,我们看英特尔的利润发展曲线应该是这样的。在这样的低谷上,中科院过程所有一台机器就是Co-Design的机器,中科院最早和曙光合作,根据过程计算应用提供了非常适合它的硬件架构、软件架构来支持。就举科学院的例子,高能物理所,大家知道的核聚变点火工程、高能物理的对撞实验,它的平台也是Co-Design定制化的。

从去年开始我们找美国、日本这些领域的技术专家,都在研究算法如何,现在因为结构复杂,算法变得更复杂了,以及算法怎么更好地适配现在的硬件。现在好几个横向扩展(Scale-out)很复杂,片内并行也很复杂,MIC是片内并行维度的复杂,我们有更多的Cache的层次,里面更加复杂,还有片上的网络,数据移动变得很重、很贵、很耗能,这又是一维复杂性。你说的问题是这十年来,学术界、企业界应该努力的方向。

我个人认为ExaScale级的计算一定不是这种我们现在看的曙光4000、曙光5000这样通用的平台。曙光6000用了异构计算,不能说特别通用了,因为很多应用上面用不到(GPU)加速就不好;但另外一些应用就不是这样的应用架构,你做一个4000、5000那样通用的,所有的应用都能利用得很好。在ExaScale级的不现实,ExaScale级的系统一定是Co-Design的。当我们的器件发生巨大的变化,我肯定不如Pawlowski研究得更深刻,在微电子、半导体技术带来巨大改变以后,我个人预测十年后可能会重新走向通用的曲线上。”

笔者猜测,到那时可能就是今天的CPU和协处理器(包括GPU和Intel MIC)进一步实现融合的时候。当然应该也包含软件对异构计算的普遍支持和优化。