浪潮AI服务器NF5288M5获年度创新产品奖-DOIT-数据产业媒体与服务平台

2018年3月22日，浪潮AI服务器NF5288M5在2018中国IT市场年会暨赛迪生态伙伴大会上荣获2017年度创新产品奖。浪潮NF5288M5是目前业界唯一可在2U空间支持8颗NVlink2.0高速互联GPU加速计算的AI服务器，能满足AI云、深度学习模型训练和线上推理等各类AI应用场景对计算架构性能、功耗的不同需求。

浪潮AI服务器NF5288M5获赛迪年度创新产品奖

2017年是人工智能应用元年，从“阿尔法狗”以3比0战胜了围棋天才柯洁，到仿真机器人Sophia被授予国籍，人工智能正全面进入人类生活。无人超市、自动驾驶等技术应用正在深刻改变这个世界。以人工智能、大数据为代表的新技术不断应用于工业、金融、物流、商贸、能源、教育、农业等行业，AI计算的需求量将呈爆发式增长。然而当前市场上的AI计算平台却普遍面临着通讯效率低下、平台架构僵化、计算密度低等问题。

AI计算平台的瓶颈——效率、弹性和密度

在AI训练中，通常采用CPU+GPU异构计算架构，CPU和GPU之间需要频繁的通讯，分担整个计算任务中不同的部分，而一旦通讯频次过高，CPU和GPU就需要花费大量的时间进行相互通讯，严重影响整个计算架构的效率。

目前市面上成熟的AI框架有十多种，像标准的图像、语音、语意理解等神经模型的数量非常庞大。不同的AI框架包含了不同的模型和算法，产生不同规模的训练数据，对CPU和GPU计算架构的多样化需求。

普通的AI训练通常需要几十万个样本进行十几万次训练迭代，为了保证模型能在有限的时间内做到足够收敛，某些模型甚至需要超过200片GPU卡以AI服务器集群的方式并行，这就需要部署更多的AI服务器，而数据中心空间是有限的，更高密度的服务器成为趋势。

浪潮NF5288M5——AI计算加速器

为了提升计算效率、满足多样化AI场景需求，浪潮NF5288M5另辟蹊径，变异构为同构，消除了异构通信带来计算效率降低的烦恼。在2U空间内支持部署8块NVLink或PCI-E 接口的NVIDIA® Tesla® P100 GPU，可以在不依赖CPU的前提下，实现机内点到点通讯，减少了异构通讯的次数；在业界率先支持NVLink 2.0和最新发布的NVIDIA® Tesla®系列GPU，可以实现GPU间高达300GB/s的互连带宽，并提供极低的延迟，让多块GPU并行的效率大幅提升超过60%。将GPU同构，把NF5288M5的并行计算效率尽可能推到极限。

浪潮AI超级计算机NF5288M5

浪潮AI服务器NF5288M5可在2U空间内支持8颗GPU，在超大规模AI训练集群或HPC集群引用时，可以帮助客户节省数据中心的基础设施资源，更有利于数据中心的空间分配。

浪潮AI计算服务器NF5288M5在2U空间内支持8颗GPU

浪潮NF5288M5采用PCIe线缆的方式连接CPU和GPU资源，可以灵活调整CPU的连接带宽和连接数量，在应对不同的AI应用时，更好的做到PCIe资源按需分配，弹性的异构平台，足以支撑多样化的AI场景。

创新设计应对极限挑战

浪潮AI服务器NF5288M5在实现性能、灵活性和密度多维度增强的同时，也面临着互连、供电和散热设计的三大极限挑战。如何在一个系统中实现GPU卡的灵活配置，满足高达3000W的供电需求，并在有限的空间内解决散热，成为了开发这款产品的三大难题。

有别于业界异构服务器CPU和GPU紧耦合的互连方式，浪潮NF5288M5采用解耦式设计，参考刀片服务器的设计思路，把组件紧凑的布局到2U空间中，同时确保NVLink™的走线长度、信号都处在最佳状态，以保证GPU的性能发挥。

8块功耗高达300W的GPU，以及服务器内其他的计算、存储和I/O资源，使整机的功耗达到3000W，供电如何走线成为最大的挑战。NF5288M5借鉴了浪潮在整机柜服务器的供电设计方式，对单服务器内部采用无线缆供电设计，减少了供电线缆对空间的占用以及对散热气流的影响。

3000W的供电，意味着3000W的峰值发热量，6倍于传统的2U服务器，散热成为一个绕不过的难题。把低发热量组件前置，高发热量组件后置，避免局部热点，让空气在服务器的内部均衡的升温，再通过高速风扇将热量快速带出服务器，保障了NF5288M5可以和传统服务器一样工作在35℃的环温下。并且为了支持低PUE数据中心，还可以配置气液混合散热，甚至可以支持45℃的高环温运行。

浪潮NF5288M5作为一款高密度、高性能的AI服务器，无论是在面向人工智能训练还是HPC应用时，都能为用户提供极致性能体验。

浪潮AI服务器NF5288M5获年度创新产品奖

zhangnn

相关推荐

近期文章

热门标签