让HPC应用性能飙升 中国用户见证至强融核优势

虽然全球高性能计算机500强(TOP500)排行榜在每年两次的更新中都会将排名前十系统所获取的靓丽性能成绩作为展示重点,但在今天,大多数用户对于这些单纯的性能数据已是兴趣不再,他们眼下更为关心的,是要在高性能计算系统功耗不出现大幅提升的前提下获取更高的性能。毕竟,过去十多年来高达千倍的性能增长幅度已让现有高性能计算系统架构的发展潜力近乎枯竭,如果仍是以通用处理器平台作为高性能计算系统的性能引擎,那么在达成下一个千倍的性能增长,即跨入百亿亿级(Exascale)计算时代之前,他们可能就因为支付不起高昂的电费而破产关门了。

面对这个难题,业界的共识是走向“异构“,即在高性能计算系统内导入专门为运行高并行度应用负载而设计和优化的处理器单元,在提升性能的同时确保较高的能效表现。GPGPU就是应此需求而生的产物。不过,在开放架构,特别是英特尔架构平台已在高性能计算领域高度普及的今天,要享受到GPGPU带来的高性能和高能效,就得首先跨过应用的迁移关——GPGPU的编程模式、工具甚至是编程语言均是随其一同新生的,要掌握它们,并能利用它们对现有应用进行改造和迁移,使之真正适合在GPGPU上运行,可是需要相当高的人力和时间成本的,仅软件开发人员的重新培训,就需要至少近半年的时间。

就在高性能计算用户正为系统“异构”带来的软件迁移问题感到困挠时,来自英特尔公司的解决方案——至强融核协处理器开辟了另一条全新的路径,它不仅能够带来与现有GPGPU方案相媲美的性能和能效,而且还无需用户重构其高性能计算应用,以及无需让其开发人员接受长期培训即可享受这些优势,从而引起了业界的广泛关注和热烈响应。
  
“两全其美”的至强融核
  
其实,早在至强融核还不是一个成熟可用的产品,而是以其核心技术——英特尔集成众核(MIC)架构在两年多前初次亮相时,它就理所当然地成为了焦点,原因就在于它是现阶段惟一一个能够带来“两全其美”应用体验的解决方案。

所谓两全之一,就是具备较高的并行处理性能。有别于通用用途的至强处理器,至强融核协处理器是专为高性能计算中应用越来越普遍的高并行化工作负载而开发,旨在全力加速这类应用负载处理速度的产品。在最新款至强处理器浮点计算能力还停留在约150 GFLOPS时,至强融核旗下两个产品家族——3100和5110的双精度浮点运算性能已分别达到了1,000 GFLOP以上和1,011 GFLOPS,而设计热功耗则分别为300瓦和225瓦。前者可以用于运行计算密集型工作负载,如生命科学应用和金融模拟,后者则适用于数字内容创建和能源研究等内存密集型工作负载,可以说,在日常运行这些应用负载的用户面前,它们在性能方面都有着难以抵挡的诱惑力。

而两全之二,则是能够让用户能够更为轻松、容易地对其现有的针对英特尔架构开发的高性能应用软件进行优化,使之能充分利用自己的性能潜力。这一点要得益于它采用了人们熟悉的和广为接受的英特尔架构,可以充分利用英特尔公司为这一架构提供的、应用已经非常普及的编程语言、并行模式、技术和开发人员工具,来支持用户优化已有的、构建于英特尔架构平台之上的高性能计算应用代码。

以上这“两全”兼顾,就形成了至强融核独一无二的应用优势——其性能和能效既出众,针对它优化现有应用的成本又低、耗时又短,见效又快,这就使得众多高性能计算用户开始对它产生强烈的兴趣,并开始进行相关的测试和应用。在今年11月与至强融核同期发布的最新高性能计算机500强排行榜上,就有7套上榜系统采用了这一创新产品,而且其中既包括了排名前十的系统,也包括了本届TOP500榜单上能效最高的系统。

中国用户见证至强融核优势
 
就在至强融核亮相于新一期TOP500榜单的同时,四家来自中国的重量级高性能计算用户也发布了他们对于这款协处理器的测试心得,这还是中国用户首次就其应用体验发表见解。

这四家用户中,有两家是国内石油勘探领域中应用高性能计算技术的翘楚,即中国石化石油物探技术研究院和中国石油东方地球物理勘探有限责任公司。另外两家则是国内权威的科研机构——中国科学院计算技术研究所和中国科学院过程工程研究所。

两家石油行业的用户都使用了各自最新的石油勘探用高性能计算应用和算法对至强融核进行了测试,结果是:中国石化石油物探技术研究院的叠前深度偏移应用在单个至强融核计算节点(双路至强E5+双至强融核协处理器)上运行时的性能,要比在优化后的单个双路至强E5计算节点上运行时提升高达2.53倍,而与未经优化的单个双路至强E5计算节点相比,两个至强融核计算节点则可实现相当于其10.3倍的性能;中国石油东方地球物理勘探有限责公司的叠前时间偏移应用在单个至强融核计算节点上的运行性能,也是其在单个优化后双路至强E5计算节点上运行时的3.86倍。
  
值得一提的是,在至强融核上获得上述性能提升并没有让这两家用户付出更多的软件调优成本,中国石化石油物探技术研究院副院长兼总工程师赵改善就指出,在测试时他们在至强融核计算节点上沿用了与至强E5计算节点相同的编程方法、MKL库、DFT程序和源代码。因此这一成绩的获得进一步展示了至强融核优良的扩展性能,证明它可“大大提升中石化的iCluster地震资料成像系统的处理能力”。 中国石油东方地球物理勘探有限责任公司物探技术研究中心副总工程师陈维也断言:“至强融核处理器将会在地震勘探数据处理中具有广阔的应用前景”。
  
上述两家来自科研领域的用户,也在至强融核协处理器的测试中获得了与石油行业用户类似的体验。中科院计算所所做的测试是基于时域有限差分法的电磁仿真计算,它在单个至强融核PCI-E插卡上实现的性能,相当于单个优化后双路至强E5平台的1.28倍,比未经优化的双路至强E5平台,其性能提升更是高达3.2倍。中科院过程所进行的测试则是用于化学、生物物理领域,旨在分析粒子间相互作用的IPE分子动力学模拟,结果发现单个至强融核PCI-E插卡的性能表现,相当于优化后双路至强E5平台的1.98倍,而与未经优化、单路单线程的至强E5平台相比,性能提升更是高达157.76倍。

同样,在领略了至强融核带来的性能优势的同时,两家科研领域用户也对其软件优化的便利性大加赞赏。中科院计算所高性能计算机研究中心主任张佩珩表示:“时域有限差分算法通过轻松的移植和简单的并行优化,在英特尔至强融核协处理器上获得了很好的扩展性和较高的性能提升,同时保证了代码一致性和可维护性,大大节约了时间和人力成本。”中科院过程所身兼中国颗粒学会理事一职的研究员、博士生导师葛蔚则指出:“MIC作为一种x86架构的众核处理器,其编程模式能够大大减少串行程序到众核程序移植的工作量,对于一些简单移植甚至能够接近‘0工作量’,并且可以利用大量CPU上原有的调优工具,为用户移植代码提供了很大方便。”

相信上述用户对于至强融核的测试,以及对其应用优势的见证将掀开这款创新产品在中国广泛应用的开端,或许在未来一两年内,就会有更多中国用户分享它们在至强融核上获取的出色体验,他们还很可能于2020年前,在英特尔公司的支持下,通过采用至强处理器平台、至强融核产品线和与之相配套的更多先进技术,顺利跨入百亿亿级高性能计算的时代。(IT168)