从TOP100说开去:中国超算在追赶中思考

2012年10月28日~10月31日,全国高性能计算学术年会在湖南张家界召开。从2005年开始,这已经是举办的第七届年会了。在参会的代表看来,高性能计算学术年会和其他的学术年会不太一样。

中国计算机学会理事长、清华大学郑炜民教授表示,高性能计算学术年会之所以和其他一些学术会议相比显得很特别,就是因为它不像是其他的会议,只是吸引了院校、研究机构的人员参加,而是吸引了产学研用,甚至包括业内主流的商业厂商等各方面的代表来参加会议。

阿凡达和超级水稻

为什么高性能计算学术年会能吸引、这么多方面的人来参加?背后原因其实很简单,高新能计算已经走入我们的生活。

国际高性能计算咨询委员会主席Gilad Shainer在2012高性能计算咨询委员会中国研讨会上就表示,高性能计算已经和我们的生活紧密相关,不管是国防、航天这样的国家层面的事务,还是天气预报、药品研制这样和平时生活息息相关的事情,高性能计算都在其中扮演了重要的角色。

即便对于本次学术会议举办地张家界来说,它也和高性能计算有着千丝万缕的关系。张家界诞生了中国第一个国家级森林公园,公园秀美壮丽的景色吸引了来自五湖四海的游客。其中就有一位很特别的游客,知名导演詹姆斯·卡梅隆。卡梅隆日后导演的著名电影《阿凡达》中,有一个重要场景哈利路亚山的原型就是张家界森林公园中的知名景点“南天一柱”。《阿凡达》凭借惊艳的影视特效,一举成为当年最卖座的影片。而影片中的特效效果,就是由新西兰Weta Digital公司的具有近6000个处理器核的高性能计算机来完成制作的。

张家界所在的湖南省,一直是中国重要的鱼米之乡,同时也是中国超级水稻的研究中心。国家杂交水稻工程技术中心的研究人员将基因组数据库和高性能计算相结合,寻找高产稳产的超级水稻。2012年3月13日,国家杂交水稻工程技术中心还与华大基因签署了长期战略合作的框架协议书。而后者自1999年成立以来,一直在利用高性能计算技术进行大规模基因组数据的处理。2012年 6月18日,在德国汉堡举行的国际超级计算大会上,华大基因继2011年后,第二次获得“高性能计算创新优秀奖”。

从动漫渲染到生物基因排序,正是这些不同类型的高性能计算应用的不断丰富,大大促进了中国高性能计算的发展。10月29日,中国计算机学会高性能计算专委会秘书长张云泉研究员在发布中国高性能计算Top100榜单时也提到,当前高性能计算应用呈现百花齐放局面。互联网服务、政府部门、工程、超算中心、云计算、电信、能源 、科学计算、游戏、电力、大气气象、服务提供商、视频计算、教育、生物信息等十五个领域是中国主要的高性能计算应用领域。

应对百亿亿次的挑战

各种应用不断涌现的直接结果,就是带动了中国高性能计算设备的制造能力不断提升。从2009年天河一号突破千万亿次,到2010年天河一号A登顶HPCTop500,再到2011年全国产的神威蓝光超级计算机的出现,一系列达到国际先进水平的国产超级计算机相继出现。

其实在高性能计算领域,大家对于计算能力的追求一直是“没有最强,只有更强”。一系列超级计算机诞生,让整个行业把目标又放在了下一个充满挑战的、计算能力达到百亿亿次(EFlops)的超级计算机上。

张云泉研究员认为,到2013年中国会有计算峰值达到10Pflops的系统出现,达到十亿亿次每秒(100Pflops)的超级计算机将在2014年到2015年间出现。

国防科技大学校长杨学军院士认为,当前核物理、材料化学、生命科学等方面的大规模应用需求已经带来了对百亿亿次计算能力的超强需要。但是在需求的背后,还存在着多方面的挑战。“从并行计算机体系结构、微处理器体系结构、存储体系结构、互联技术到并行软件,需要多层次多学科的共同发展,来实现百亿亿次的目标。”杨学军说,“另外值得思考的就是,硬件技术的发展在解决可靠性、能耗等方面的难点的同时,又会带来编程方面的压力,特别是GPGPU异构系统对于编程的压力巨大。”

除了杨学军院士所提到的这些阻挡百亿亿次超级计算机所成为现实的门槛外,目前业内普遍认为能耗也是阻碍着其成为现实的一个巨大难点。华中科技大学金海教授也表示,能耗和超大规模核心的组织与管理是实现百亿亿次计算的两大障碍。

Gilad Shainer认为,在当前的技术条件下实现百亿亿次不是没有可能,只是以目前技术搭建起来的系统可能需要惊人的投入,其对电力的消耗也是现在所不能接受的。有专家测算过,如果以现有水平构建百亿亿次的超计算机,其能耗将会是三峡水库发电量的三分之一。“因此,需要围绕整个系统的多方面共同努力才能,在一种优化的情况下实现百亿亿次的目标。”Gilad Shainer说。

Gilad Shainer的观点,也得到了其他一些业内专家的支持。英特尔高级院士Steve Pawlowski在高性能计算学术年会的主题演讲中,也特别强调了能耗对于实现百亿亿次高性能计算所带来的挑战。他指出:“需要高效的处理器、高效的内存、高效的网络、高效的并行程序以及可靠的系统来共同实现百亿亿次的目标。”

呼唤超算国家计划

记者从2008年就开始参加高性能计算学术年会,已经连续参加了五届。每一届会议的规模都在不断扩大,这从一个侧面反映出当前高性能计算领域的发展正在不断加速。记者观察到,每年的大会上关于硬件体系架构的发言却是重头戏。但是正如郑炜民老师所说的那样,要想推进高性能计算应用的不断发展,不但要有高新能的设备,还需要产、学、研、用各方面的力量来共同推动。所以,在本次学术年会上,除了大量技术性发言外,记者特别关注了来自超算用户的主题发言,并专门参加了超算中心分论坛。

目前,天津、济南、长沙、深圳等地的国家级的超算中心已经相继建成,并投入使用。国家超级计算济南中心陈德训副主任告诉记者,自从2011年10月济南中心的神威蓝光超级计算机调试完成后,整个系统就没有停过,一直处在不间断地工作状态中。国家超级计算深圳中心黄强副主任也表示,从成立开始,围绕深圳当地产业的特点,深圳中心在高能物理、生物技术、地球科学、动漫、工业仿真等方面进行了大量的工作。

在各大超算中心紧锣密鼓地开展各项工作的同时,在本次学术年会上,记者也听到了关于超算发展的另外一种声音,那就是“超算中心的发展也需要改革了”。

为什么会有这样的声音,记者采访后发现其背后的原因存在着复杂的因素。

一位超算中心的负责人向记者表示,现在的情况来看,超算中心一般只能得到国家最初几年的资金投入,之后就需要超算中心自己寻找一条自我造血、自我维持的道路。但是在这位负责人看来,“自我寻找造血”对于超算中心是不现实的。

上海超算中心是我国最早建设的超级计算中心之一,中心李根国副主任也向记者表示,上海超算正在进入一个需要改革的关键点了。“当前中心运维压力越来越大,上海超算曾经算过一笔账,如果未来实现100PLops的计算规模,相应的运维费用可能每年要达到1.8亿元人民币,但是这个数字是上级主管单位根本无法接受的。所以,我们只能将未来的发展规模定在5PLops的规模,主要围绕上海当地的企业和高校提供服务。”

在运维方面,李根国透露,上海超算也在计划进行一些市场化的尝试,但是前提仍旧是公益性的服务占到中心工作的绝大多数。“目前上海超算中心80%的资源用在了科学研究,未来也不会少于70%,未来也会向科学计算的用户适当收费,剩下资源则投入到市场化的应用中去。”

除了市场化的考虑,对于寻找自我造血的发展模式,李根国表示上海超算还在摸索与企业和高校打造一种全新的发展模式。一方面,上海超算中心计划与一些企业打造一种共建的模式,特别是在一些商业应用软件方面,双方共享、共建;另一方面,就是与高校合作,与高校内小规模的超算平台互动,从这个意义上实现资源整合。“上海超算中心的‘大’设备就像一个资源池,高校的这部分用户在资源不够而又无力扩展的时候,可以从这个池中获得资源上的支持,以保证这些高校计算平台的可持续发展。”李根国说。

在陈德训看来,要让超算中心实现持续性发展,必须得到国家更高层面的战略支持。所以在陈德训的设想中,现在各地的超算中心有必要组成一个“超算联盟”这样的机构,不再是各个单位单打独斗,而是在一起形成合力,为中国高性能计算发展做出自己的贡献。W

专家声音

超算中心所做的很多研究都是和国家的战略发展息息相关的,所以有必要像发改委或自然基金委这样的国家机构制定相应的发展战略。

——中国计算机学会高性能计算机专委会主任 孙凝晖

曙光举办自己的超算大会,与高校合作开展并行编程的课程,其目的就是想打造一个完整的高性能计算生态环境。只有这个生态环境的健康发展,才能促进整个高性能计算行业的健康发展。

——曙光公司副总裁、研发中心总经理邵宗有

在一个高性能计算系统搭建好后,如何提高整机的开机率、提高整机的利用率尤为关键,其中很重要的一个因素是提高运维能力,在运维做好之后再要做的就是针对应用特性的的软件优化工作。

——并行科技 CTO 陈健

目前国内在高性能计算领域存在着一种浮躁的情绪,以上海超算中心为例,很多用户都不会静下心来好好地在应用程序开发上多做一些功课。国外的很多超算中心的应用项目都是可以调度上万个CPU核的;在国内,别说调度上万个,就是调度上千个CPU核心的应用都是凤毛麟角。要解决这样的局面,必须在人才培养上下更大的功夫。

——上海超算中心副主任 李根国

数说榜单

上榜系统总Linpack性能达到16PFlops;

上榜系统平均性能突破160TFlops,但是与国际水平差距进一步扩大;

前10名里4台是CPU+GPU体系架构,而且全部来自前五名;

榜单中中国制造的机器数量占装机数量的56%,比2011年的51%有小幅上升;

曙光在制造商机器数量份额中位居首位,达到了36%的比例。上榜高性能计算机制造商下降到8家,市场份额进一步集中;

榜单中,有35%的系统是用于互联网服务。综合来看,互联网服务、超算中心、工程、政府部门、云计算等是高性能计算主要用户。互联网服务、云计算和工程计算方面的应用增长强劲;

上榜系统的性能门槛继续大幅提升,达到49.5TFlops,是2011年的2.24倍。