北大陈一峯:采用至强融合的异构E级计算机可用

北大陈一峯:采用至强融合的异构E级计算机可用

【《网络世界》专稿 】

“根据相关机构预测,E级(Exascale,百亿亿次)计算机有望2020年左右问世,但E级计算机造出来之后,怎么真正能把应用在上面映射,确实有技术挑战。”近日,北京大学信息学院计算机系副系主任、百人计划特聘研究员、博士生导师陈一峯在一个HPC(高性能计算)行业会议中如此告诉记者。

据陈一峯介绍,他所在的北京大学众核并行软件研究小组与中科院大连化学物理所正以蛋白质折叠的分子动力学模拟为课题,联合研究统一的基于英特尔架构的物理建模方法、计算方法、计算机算法以及针对新型众核硬件(即英特尔至强融合处理器)的优化方法。

蛋白质折叠的分子动力学模拟(以下简称蛋白质模拟折叠)是极有希望在E级超级计算规模真正实现可扩展异构众核加速的应用。相比其他高性能计算应用,蛋白质模拟折叠的特点是对计算规模有极大需求、计算结果与实验符合度高、对通讯带宽要求较小,但其核心挑战是可扩展性问题和可靠性问题。

“可扩展性是E级计算下常见的问题,即并行应用运行效率并不随着计算机规模扩大而线性增长。这实际上体现出来的是,你的应用不见得适合这么大规模的机器或者这个机器不同的架构,这是整个业界关心的核心问题之一;第二是可靠性问题。E级计算环境下,系统平均无故障时间大幅缩短,长时间运行程序面临挑战,故障的检测、诊断和恢复难度直线上升,但现在看起来是有机会开发新的计算方法,设计新的计算模式去解决该问题。”陈一峯说

北大蛋白质模拟折叠课题组最终给出的解决方案是:大幅提高通用单芯片迭代频率,采用英特尔至强融合处理器,达到每秒500至1000次以上的迭代频率;同时改进物理计算算法,减少对通讯延迟的要求,实现全机迭代频率等同或接近单芯片。并且,基于目前的研究工作,陈一峯与其同事还得出以下三个阶段性结论。

采用英特尔至强融合处理器(Xeon Phi)作为众核加速的E级计算机是可用的。显然,这一结论对于英特尔是个利好消息。虽然目前世界最快的超级计算机“天河二号”采用了英特尔第一代至强融合处理器,英特尔今年推出的第二代至强融合处理器Knights Landing也有长足进步(内核数量超过60个,性能相比上一代产品提高3倍),但E级计算时代,究竟是CPU+GPU异构架构还是CPU+ Xeon Phi架构占主流仍未有定论,还要靠一个个主流超算应用来证实。而蛋白质模拟折叠就是一个特别主流的超算应用,在科研和商业上都有广泛用途,所以我们说该结论对英特尔至强融合处理器是利好消息。

第二,尽管硬件可行,但是仍然需要研究新的软件技术才能用好E级计算机。陈一峯表示,他们在此项目中研究的新超算应用方法适合于众核异构架构未来发展方向,同时也有向其他应用领域推广的潜在可能性,如油藏模拟,但陈一峯随后又补充说“仅是猜测”。

第三,HPC应用开发必须要采用多学科交叉。“必须是应用领域专家与计算机专家共同研究新的统一物理模型、计算方法、计算机算法和系统优化算法,一定要多个学科坐在一起,才能做,要不然根本想不到特别好的解决方案。”陈一峯强调说。

此外,我们还探讨了超算应用难开发、超算人才难培养的问题。除了上述强调的超算应用开发涉及多学科交叉合作,需要多学科能力之外(+微信关注网络世界),陈一峯认为,硬件速度发展过快导致软件水平跟不上也是原因之一。对此,来自英特尔软件部门的英特尔中国公司软件与服务集团客户响应团队经理乔楠,从英特尔角度畅谈这个问题。

首先,在人才培养方面,乔楠表示英特尔这边有大学合作部,向大学提供多种资源,与大学老师一起进行人才培养。

其次,英特尔提供许多工具来帮助开发者降低开发的成本,提升开发的效率,如VTune、Thread Profiler等等。而且,英特尔在Xeon Phi上的工具和在英特尔CPU上的工具是统一的,打通所有的环节。

再次,英特尔尽可能提供融合的硬件平台。从编译器的角度去把指令集的不同给屏蔽掉,让编译器自己能够捕捉硬件平台不同来自动的适应。

“高性能计算有一点阳春白雪,这方面困难会一直存在下去,但整个世界是在发展的,我们会不断地推着它往前走。”乔楠说。