浪潮AI服务器NF5288M5获年度创新产品奖

2018年3月22日,浪潮AI服务器NF5288M5在2018中国IT市场年会暨赛迪生态伙伴大会上荣获2017年度创新产品奖。浪潮NF5288M5是目前业界唯一可在2U空间支持8颗NVlink2.0高速互联GPU加速计算的AI服务器,能满足AI云、深度学习模型训练和线上推理等各类AI应用场景对计算架构性能、功耗的不同需求。

浪潮AI服务器NF5288M5获赛迪年度创新产品奖

2017年是人工智能应用元年,从“阿尔法狗”以3比0战胜了围棋天才柯洁,到仿真机器人Sophia被授予国籍,人工智能正全面进入人类生活。无人超市、自动驾驶等技术应用正在深刻改变这个世界。以人工智能、大数据为代表的新技术不断应用于工业、金融、物流、商贸、能源、教育、农业等行业,AI计算的需求量将呈爆发式增长。然而当前市场上的AI计算平台却普遍面临着通讯效率低下、平台架构僵化、计算密度低等问题。

AI计算平台的瓶颈——效率、弹性和密度

在AI训练中,通常采用CPU+GPU异构计算架构,CPU和GPU之间需要频繁的通讯,分担整个计算任务中不同的部分,而一旦通讯频次过高,CPU和GPU就需要花费大量的时间进行相互通讯,严重影响整个计算架构的效率。

目前市面上成熟的AI框架有十多种,像标准的图像、语音、语意理解等神经模型的数量非常庞大。不同的AI框架包含了不同的模型和算法,产生不同规模的训练数据,对CPU和GPU计算架构的多样化需求。

普通的AI训练通常需要几十万个样本进行十几万次训练迭代,为了保证模型能在有限的时间内做到足够收敛,某些模型甚至需要超过200片GPU卡以AI服务器集群的方式并行,这就需要部署更多的AI服务器,而数据中心空间是有限的,更高密度的服务器成为趋势。

浪潮NF5288M5——AI计算加速器

为了提升计算效率、满足多样化AI场景需求,浪潮NF5288M5另辟蹊径,变异构为同构,消除了异构通信带来计算效率降低的烦恼。在2U空间内支持部署8块NVLink或PCI-E 接口的NVIDIA® Tesla® P100 GPU,可以在不依赖CPU的前提下,实现机内点到点通讯,减少了异构通讯的次数;在业界率先支持NVLink 2.0和最新发布的NVIDIA® Tesla®系列GPU,可以实现GPU间高达300GB/s的互连带宽,并提供极低的延迟,让多块GPU并行的效率大幅提升超过60%。将GPU同构,把NF5288M5的并行计算效率尽可能推到极限。

浪潮AI超级计算机NF5288M5

浪潮AI服务器NF5288M5可在2U空间内支持8颗GPU,在超大规模AI训练集群或HPC集群引用时,可以帮助客户节省数据中心的基础设施资源,更有利于数据中心的空间分配。

浪潮AI计算服务器NF5288M5在2U空间内支持8颗GPU

浪潮NF5288M5采用PCIe线缆的方式连接CPU和GPU资源,可以灵活调整CPU的连接带宽和连接数量,在应对不同的AI应用时,更好的做到PCIe资源按需分配,弹性的异构平台,足以支撑多样化的AI场景。

创新设计应对极限挑战

浪潮AI服务器NF5288M5在实现性能、灵活性和密度多维度增强的同时,也面临着互连、供电和散热设计的三大极限挑战。如何在一个系统中实现GPU卡的灵活配置,满足高达3000W的供电需求,并在有限的空间内解决散热,成为了开发这款产品的三大难题。

有别于业界异构服务器CPU和GPU紧耦合的互连方式,浪潮NF5288M5采用解耦式设计,参考刀片服务器的设计思路,把组件紧凑的布局到2U空间中,同时确保NVLink™的走线长度、信号都处在最佳状态,以保证GPU的性能发挥。

8块功耗高达300W的GPU,以及服务器内其他的计算、存储和I/O资源,使整机的功耗达到3000W,供电如何走线成为最大的挑战。NF5288M5借鉴了浪潮在整机柜服务器的供电设计方式,对单服务器内部采用无线缆供电设计,减少了供电线缆对空间的占用以及对散热气流的影响。

3000W的供电,意味着3000W的峰值发热量,6倍于传统的2U服务器,散热成为一个绕不过的难题。把低发热量组件前置,高发热量组件后置,避免局部热点,让空气在服务器的内部均衡的升温,再通过高速风扇将热量快速带出服务器,保障了NF5288M5可以和传统服务器一样工作在35℃的环温下。并且为了支持低PUE数据中心,还可以配置气液混合散热,甚至可以支持45℃的高环温运行。

浪潮NF5288M5作为一款高密度、高性能的AI服务器,无论是在面向人工智能训练还是HPC应用时,都能为用户提供极致性能体验。