CPU+GPU+MIC 上海交大超算采用三重架构

2013上半年,由浪潮负责承建的上海交大超算系统成为全国教育部高校计算峰值最高的超算系统,该系统计算性能达到263万亿次,性能超过上海超级计算机中心的“魔方”(200万亿次),也因此成为上海乃至华东地区最快的超算系统。

同时,采用独特的CPU+GPU+MIC异构计算架构,也让这套首开先河的系统备受关注。在9月25日举行的2013高性能计算用户大会上,上海交通大学高性能计算中心副主任林新华以及浪潮集团高性能服务器产品部总经理刘军接受了ZDNet记者的采访,并详细介绍了上海交大超算系统建设的创新点。

采用CPU+GPU+MIC的架构设计

上海市已经建设了上海超算中心,但『魔方』主要面向整个上海市,甚至是全国用户需要,所以应用面更广。林新华表示,上海交大的超算系统主要用来满足交大校内老师的需要。

作为尝试CPU+GPU+MIC架构的大型计算系统,谈起最初设计的初衷,林新华介绍:“采用CPU+GPU+MIC这样的架构设计,我们并不担心计算资源用不掉,而且就目前的情况来看,其实这种架构在使用上完全满足用户需要。”

除了满足用户需要以外,林新华表示也希望通过这种方式去探索未来E级(百亿亿次)计算的一些问题,这种技术现在在国际学术界上认为可以解决从P级(千万亿次)通往E级(百亿亿次)面临的挑战。

因为就应用生态系统而言,目前在GPU上能够跑的应用的相对比较多一点,所以在上海交大超算系统的配置中,这次GPU放得多一些。“同时,我们也保持比较开放的态度,我们对MIC也有关注。综合这些因素,所以在设计的时就形成了双重异构架构。”林新华补充道。

对于采用双重异构架构之后,应用程序该如何优化方面的问题,林新华表示,自己的研究方向就是怎么样写程序,来使得这些程序既可以跑在GPU上面,又可以跑在MIC上面,这种研究在国际上已经有人开始在做了,大家都还是在早期阶段,但无疑具有广阔的前景。

看重供应商的长期支持能力

双重异构架构使得上海交大超算系统在异构技术上颇有新意,但于此同时复杂的架构也对技术供应商的能力提出了更高的要求。在最初选择供应商之时,上海交大也对供应商进行了为期半年的考察期。

“我们在采购的过程中有跟我们校内做应用的老师做过充分的交流,明白他们要算的一些题目,也大概知道他们对CPU、内存,以及对带宽的具体需要,我们在立项之前就有做过大概长达半年时间校内的调研。”林新华说道。

至于最终选择浪潮的原因,林新华觉得“浪潮给我们的感觉是最踏实、最可靠。这么大的一个体系它是需要厂商非常长时间的技术支持,可能三年、五年。我们跟浪潮交流下来,浪潮之前项目做的很踏实,方案也做得很好,因此给我们的综合感觉是最好的。”

就目前的情况来看,林新华满意的表示,“我们觉得当初的选择是正确的,整个项目实施得都很漂亮。现在浪潮还派了一个驻场工程师在我们学校,一旦系统出问题工程师马上就能参与协助。”

技术与应用发展并重

实际上,除了重视高性能计算系统的构建,浪潮也一直与各大高校展开了联合培养的计划,来促进对应用人才的培养。

浪潮集团高性能服务器产品部总经理刘军表示,实际上浪潮与高校在高性能计算方面的合作,一直是以双赢的目的进行的。“一方面我们本身作为厂商会为高校建设高性能计算系统,同时我们与高校一起开展计算机体系结构研究、学科应用优化以及课题联合申请等,乃至大家一起来开发新产品新技术。这样我们和高校就不是单纯的销售关系,而实际上最后变成一种伙伴关系。”

此外,对于清华、交大等高校,浪潮一方面会产生提供产品和技术服务,另外一方面由于大学非常重视自身的人才和应用发展,大学里有最好的专家同时也提出最创新前瞻性的理念,这样反过头来会对浪潮下一步的技术创新起到一个非常好的推动作用。

“所以浪潮跟很多大学一起设立了联合实验室,同时浪潮的高效能服务器和存储技术国家重点实验室也设立开放课题,我们希望大学的老师能够去申请承担这些课题,这样的话双方能够形成深度互补,互相增强关系。”刘军说道。