EveryScale 超级计算机,联想这是在说啥?

超级计算机,也就是高性能计算机(HPC)领域最大亮点当属“Exascale”,也就是E级超级计算机。美国、欧洲、日本都制定了E级计算机发展计划,中国的E级计算机也被列入了“十三五”重点研发单项,谁能够率先脱颖而出,万众瞩目呢?

E级计算机含义是每秒10的18次方科学计算的能力,也就是要完成1exaflop/s的浮点运算能力。最新发布的HPCTop 500排行榜中,排名第一的Summit超级计算机的计算能力达到了148.6PFlop/s,距离E级计算也不过是一步之遥。

看似近在咫尺,但实现E级计算机远没有那么乐观。

众所周知,E级计算有5大难题:功耗墙、访存墙、通信墙、可靠性以及并行计算可扩展性,任何一个都足以让E级计算夭折。

尽管如此,技术进步也为E级计算设计提供了可能,以日本Fugaku(POST-K)为例,除了向量处理器之外,更高带宽的HBM内存,也就是3D内存产品,就成为了仰仗的利器。与之相比,欧洲非常重视开源处理器架构RISC-V以及由Atos公司牵头自研的欧洲处理器,欧洲在新的计算模型、语言、算法,以及大规模数据模拟方面雄厚积累,也是他们的优势。美国方面,投资18亿美元研制3台E级计算机同时,另投入18亿美元用于研发应用,一句话,八仙过海,各显其能。

在如此紧迫的局势面前,中国的超级计算计从安处?

作为国内高性能计算的领头企业,联想给出了自己的答案:融合计算。

那么,什么是融合计算?E级计算又融合了什么?在此,给出了E级计算超级计算机的2种实现方式:仅为E级计算设计而设计,以及EveryScale设计方式。

所谓EveryScale重点强调的是采用开放的技术设计,利用现有科技技术的进步,积小胜为大胜,寻求突破。

以网络通信为例,HDR的共享I/O为每个高性能计算节点提供了100GB带宽的连接;温水冷却技术为散热,能耗比提供了坚实的技术支撑。据透露,为了突破数据访存墙,联想针对NVMe SSD、SCM等新一代存储介质进行极致优化设计,构建了面向下一代可横向扩展的分布式存储新产品NFDS。

更能够体现开放技术设计思路的是HPC与AI、大数据技术的融合。

与以往不同的是,这里的融合不仅仅强调AI、大数据应用需要高性能计算,新的融合计算也强调AI、大数据分析对于HPC设计的反哺。

以目前Top 500排行第一的Summit为例,他们设计了一个神经网络模型,通过训练作为数据仿真的代理,能够在极短时间内评估模型参数,指导高性能计算仿真应用。

有数据表明。传统HPC 500万次仿真,30亿CPU小时的计算,经过AI仿真,被成功压缩为6万次,计算效率大大提升。

此外,以AI应用为核心的智能化运维,对于超级计算机设计同样至关重要。

众所周知,Top500排行的超级计算机,大多采用了Cluster集群技术,借助计算节点堆叠来提升计算能力。如今PFlop/s级别的超级计算机,计算核心多达上百万,如果全部采用CPU实现,大约需要多达数万台x86服务器。我们假设服务器可靠性是万分之一,那么,由万台节点构建的Cluster集群,技术难度可见一斑。x86服务器可靠性将是一个主要瓶颈。

AI、机器学习、数据分析技术的使用,让我们能够未卜先知,准确控制和处理故障节点,这就为更大规模Cluster创造了条件,这也是AI融合计算的精髓。

融合计算不仅体现在硬件,也体现在软件。

LiCO能够帮助用户管理好他们的AI系统。

融合计算不仅是技术的融合,也是行业应用的融合,这也是联想坚持采用开放技术的重要原因。

E级计算并不是拿来看的,也是要拿来的用。在刚刚结束的世界超算大会(ISC 2019)上,联想以173套的成绩再次蝉联HPC TOP500榜单全球第一,不仅印证了联想是全球最大HPC提供商的地位,也说明联想HPC真正做到了与行业的深度融合。

联想将继续以“全球化+中国特色”作为业务战略,充分发挥自身优势,构建高度安全、可信的信息产业基础设施,推动中国企业实现技术升级与产品创新,这才是我们需要的。可以预见,以融合计算为基石,E级计算的梦想并不遥远!