随着深度学习带来 AI 的第三次浪潮,对 AI 的相关讨论层出不穷,算法是大家关注的重点。
算法固然重要,但想做好 AI,还需要强大的底层支撑。谷歌在训练 AlphaGo Zero 时,用到 2000 块 TPU,仅仅花费三天就完成训练。目前,企业 AI 化的需求不断加深,需要有非常强大的计算平台来有力支撑线上推理和线下训练。
AI 计算平台涉及到 GPU、CPU、TPU、FPGA 等硬件,每类硬件背后都有代表企业。英伟达 GPU 以卓越的性能,在 AI 计算中占据了相当大的市场;英特尔在 CPU 上有得天独厚的优势,并擅长布局生态,譬如将 CPU 与 FPGA 相结合;谷歌瞄准深度学习场景,发布专用 TPU 加速器。
在 4 月的浪潮云数据中心合作伙伴大会(IPF2018)上,浪潮首发面向 AI 云设计的弹性 GPU 服务器 NF5468M5,可灵活支持 AI 模型的线下训练和线上推理。(目前,浪潮在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中得分为 8 。)
图:浪潮弹性 GPU 服务器 NF5468M5
这一服务器具备以下功能:
- 面向线下训练对性能的需求,可支持 8 颗最高性能的 Tesla Volta GPU 以 PCI-E 或 NVLink 的高速互联。
- 面向在线推理对高能效比的需求,可支持 16 颗高能效比的 Tesla P4 GPU,适用于语音、图片、视频场景。
- 在智能视频分析场景下,可同时处理 300 路以上 1080p 高清视频结构化。
- 在数据存储和通信性能方面,支持 288TB 大容量存储或 32TB 固态存储,能实现高达 400Gbps 的通信带宽和 1us 的超低延迟。
据浪潮介绍,AI 云对基础架构的设计带来了新的挑战,要求 AI 服务器具备适合于不同 AI 训练场景的 GPU 灵活拓扑、AI 线上推理的高并发低延迟与高能效比、大规模 AI 数据的存储与通信能力。基于此,结合英伟达 GPU 芯片的良好性能以及稳健生态,浪潮做出一系列创新,推出 NF5468M5。
除了最新发布的 GPU 服务器 NF5468M5,浪潮的服务器还涉及 CPU、FPGA。浪潮通过实测数据,分析不同场景下人工智能计算对服务器的性能要求,合理搭配以 CPU、GPU 和 FPGA 为核心的 AI 计算服务器。以下是两个典型案例。
适用于多个应用场景的 FPGA 加速设备 F10A
F10A 是一款 FPGA 加速设备。基于 FPGA 具有可编程专用性,高性能及低功耗的特点,浪潮 F10A AI 线上推理加速方案针对 CNN 卷积神经网络的相关算法进行优化和固化,可加速 ResNet 等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。
这一服务器的单芯片峰值运算能力为 1.5 TFlops,每瓦特性能达到 42 GFlops。同时,F10A 具有灵活的板卡内存配置,最大支持 32G 双通道内存,能够寄存更多的并行任务数据。
最大支持 64 块 GPU 的 SR-AI
SR-AI 单机可实现支持 16 个 GPU 的超大扩展性节点,该方案最大支持 64 块 GPU,峰值处理能力为 512 TFlop,可支持千亿样本、万亿参数级别的模型训练。该服务器打破了传统服务器的 GPU/CPU 紧耦合架构,通过 PCI-e Switch 节点连接上行的 CPU 计算/调度节点和下行的 GPU Box,实现 CPU/GPU 的独立扩容,避免传统架构升级带来的部件过度冗余,使得 GPU 扩展无需同步配置高成本的 IT 资源,可将成本优化 5% 以上,随着规模上升,成本优势更加明显。
浪潮表示,在计算平台的选择上,企业可以在适合线下训练的计算加速节点采用浪潮领先业界设计的浮点运算能力强、高扩展的 GPU 服务器,或 KNM 计算加速器,而用于线上识别的计算加速节点采用浪潮低功耗、高能效比的 GPU 服务器,或者低功耗定制优化推理程序的 FPGA 加速器。
图:浪潮 GPU 服务器产品家族
2017 年,浪潮 AI 服务器在中国 AI 市场占有率超过 57%,阿里巴巴、腾讯和百度三家运营商 90% 以上的 AI 服务器都来自浪潮。
对于浪潮在 AI 服务器上的成功,浪潮 AI&HPC 总经理刘军将其归功于三个方面,一是对 GPU 的布局早,二是对行业客户的把握——把互联网作为主航道,三是产品创新的能力和效果有保证。
日前,浪潮也公开了企业 AI 策略。
2018 年 4 月 26 日,在浪潮云数据中心合作伙伴大会 IPF2018 上,浪潮发布全新 AI 品牌 TensorServer,明确传递浪潮对 AI 业务的决心与愿景。浪潮集团副总裁彭震对 TensorServer 品牌予以了诠释:「Tensor 是算法的基础元素,Server 是计算力的基础架构。AI 基础架构对于 AI 产业持续快速健康发展至关重要。TensorServer 意在成为 AI 的承载者与赋能者,整合创新 AI 基础架构系统,以计算开启可进化的智慧世界。」
这里的 AI 基础架构系统涵盖平台、管理、框架、应用多个方面。
在 AI 管理上,浪潮部署 AIStation 人工智能深度学习集群管理软件。AIStation 主要面向深度学习计算集群,提供数据处理、模型开发、模型训练、推理服务全流程服务,支持多种深度学习框架,能够快速部署深度学习训练环境,全面管理深度学习训练任务,为深度学习用户提供高效易用的平台。此外,这一软件可以对计算集群的 CPU 及 GPU 资源进行统一的管理、调度及监控,有效的提高计算资源的利用率和生产率。
图:AIStation 系统架构图
作为补充,浪潮还自研 Teye 应用特征分析系统。Teye 主要用于分析 AI 应用程序在 GPU 集群上运行时对硬件及系统资源占用的情况,反映出应用程序的运行特征、热点及瓶颈,从而帮助用户最大限度的在现有平台挖掘应用的计算潜力,进而为应用程序的优化以及应用算法的调整改进提供科学的指引方向。
而在框架上,浪潮早在 2015 年就发布 Caffe-MPI 深度学习计算框架,他们在 Caffe 架构的基础上,针对并行扩展性做出一系列创新。
据雷锋网了解,最新版本 Caffe-MPI 在 4 节点 16 块 GPU 卡集群系统上训练性能较单卡提升 13 倍,其每秒处理图片数量是同配置集群运行的 TensorFlow 1.0 的近 2 倍。
Caffe-MPI 设计了两层通信模式:节点内的 GPU 卡间通信及节点间的 RDMA 全局通信,这极大降低了网络通信的压力,并克服了传统通信模式中 PCIE 与网络之间带宽不均衡的影响,同时 Caffe-MPI 还设计实现了计算和通信的重叠。此外,新版本 Caffe-MPI 提供了更好的 cuDNN 兼容性,用户可以无缝调用最新的 cuDNN 版本实现更大的性能提升。
除了自研深度学习框架,浪潮将深度学习框架及其依赖的库统一进行资源封装成一个镜像,之后便可以在任何支持资源封装的浪潮平台上随时加载镜像,用户可以立刻开始工作,其工作环境与原始环境完全一致,这可以有效提升生产力。目前,浪潮可封装的框架资源基本涵盖了主流的深度学习框架,包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet 以及 PaddlePaddle 等。
在应用加速上,雷锋网了解到浪潮的解决方案如下:
- 应用场景咨询与系统方案设计
浪潮 AI 解决方案专家与客户商讨深度学习应用场景,共同分析计算热点和瓶颈,帮助设计适合客户应用场景的系统方案。
- 应用代码移植优化
浪潮异构应用专家可以帮助客户分析 CPU 代码特征,辨别是否适合迁移至异构加速部件,并共同将代码热点进行移植优化,提升应用的计算效率,时间更短。
- 计算加速部件性能横向评测
浪潮针对 GPU/FPGA/KNM 等主流异构加速部件拥有成熟的横向评测方法,可以帮助客户选择适合的部件。
目前,浪潮的解决方案为行业 AI 转型提供赋能支撑。
浪潮与百度合作推出 ABC 一体机,这一设备集合了百度自研的集群管理软件、优化引擎和浪潮 AI 计算硬件平台,支持 PaddlePaddle、TensorFlow、Caffe 等主流深度学习框架,内嵌成熟的算法模型和云管理技术。
据浪潮介绍,ABC 人脸识别一体机支持百度人脸检测、1:1 人脸对比和 1:N 人脸查找三大人脸识别核心能力,可以根据人脸面部的 72 个特征点识别多种人脸属性,如性别、年龄、表情等信息,并计算人脸相似度,可用于用户身份。
图:浪潮与百度携手打造 ABC 一体机
此外,浪潮很早就开始与科大讯飞合作训练语音神经网络模型,从将模型训练从 CPU 单机上扩展到多机,而后又开展如何在 FPGA 上运行语音神经网络模型的研究,实现更高的性能。
目前,浪潮在计算平台、管理套件、框架优化和应用加速上已经形成有机的 AI 生态。刘军表示,对于渴望 AI 转型的企业,从客观看,极其需要这四层能力,而浪潮作为赋能者,能将这四层能力赋予这些企业,让其更快速地实现 AI 落地。