7月4-5日,百度AI开发者大会(Baidu Create 2018)在北京举行,这是全球首个聚焦AI的开发者大会,也是百度AI产业生态的集中展示。浪潮作为百度计算基础架构领域重要合作伙伴和AI生态的重要成员参与此次大会,并在大会上展示了三款不同规模的AI基础架构平台方案,其中AI服务器AGX-2支持NVIDIA最新的Volta架构,配置32GB内存的NVIDIA® Tesla® V100 GPU加速器,其内存容量比上一版产品实现了翻倍。规模最大的SR-AI整机柜服务器(百度代号X-Man)是浪潮与百度联合研发的超大规模AI计算集群,可支持64块GPU。具有很强灵活性和扩展性的高性能GPU AI计算产品浪潮GX4,能够很好的适应不同规模的深度学习模型训练和线上推理的需求以及不同类型AI应用对底层架构的要求。
2017年百度公布了完整的AI开放生态战略,通过开放战略构建起强有竞争力的AI生态。浪潮作为领先的IT基础设施供应商,为BAT提供AI计算系统方案占90%以上。
三款产品覆盖全部用户需求
浪潮此次展示的AI平台主要是AGX-2、GX4和SR-AI三款方案,可以有效地覆盖不同规模的AI线下训练应用。
SR-AI是规模最大的线下训练方案,这款产品符合最新的天蝎2.5标准,适合于超大规模云数据中心部署,最大支持64块GPU,可满足千亿样本、万亿参数级别的超大规模模型训练需求,非常适合于AI方案开发商、服务提供商等AI专业用户。
更重要的是,这也是全球第一个将PCIe Fabric引入AI应用的产品,打破GPU和CPU的物理耦合,实现了池化,两类资源通过PCIe switch灵活搭配,可以灵活扩展,相对于传统的GPU服务器,这是种颠覆式的创新,带来了高密度、低延迟、易扩展等优势。这款产品在百度实际业务的测试中显示,SR-AI相比传统的AI方案性能提高5-10倍。
浪潮AI服务器GX4
另一款GX4是专用的GPU扩展模块,高度为2U,可扩展4块GPU,通过PCI-E X16的接口接入服务器,单台服务器最大可连接4台GX4,形成16块GPU的AI训练平台,这种方案不仅可以将GPU之间的通信延迟降低50%以上,而且节省了交换机等辅助设备,可有效降低整体采购成本,16卡方案相比传统方案硬件采购成本可节省10万以上。
最强AI服务器AGX-2,计算性能提升高达40%
AGX-2是目前性能密度比最高的AI计算平台,2U高度可扩展8块GPU,可以搭建AI训练集群,也可以作为中小规模AI的单机训练平台,通用性非常好。目前已经在中国移动咪咕,今日头条等互联网、金融、交通等行业广泛应用。
浪潮AI服务器AGX-2
援引浪潮实测数据,搭载8颗配置32G HBM2高速缓存Tesla V100 GPU的AGX-2在AI训练上实现了计算性能的进一步提升。新产品在模型训练的Batch_Size(批尺寸)设置拥有更大的弹性空间,有效解决深度学习线下训练中存在的内存限制问题,更好应对大数据集或高清图像文件的处理瓶颈,帮助计算性能提升可高达40%以上。同时,AGX-2具备拓扑的灵活性可支持NVIDIA NVLink和PCIe两种GPU互联方案,采用NVIDIA NVLink时可提供GPU间高带宽低延迟互联,以及高达300GB/s的吞吐量,而Geforce1080 基于PCIE3带宽仅为16GB/s。而在某客户的人脸识别线下训练场景中,浪潮提供的AGX-2+V100平台,通过性能优化实现比Geforce 1080Ti接近4倍的训练速度提升。
浪潮与百度,AI商业化的黄金搭档
全球AI产业面临的最大问题是如何将AI与具体应用结合起来,也就是AI商业化落地。IDC认为,人类正开始全面迈入人工智能时代,无论是高科技产品还是传统产品,都将嵌入人工智能技术。“人工智能+”将继“互联网+”之后,带动新一轮的经济发展。
但AI的门槛很高,对数据量、算法优化度和计算力都有着极高的要求。因此,传统产业客户希望能够以一体化方案的形式,快速搭一套高效的AI系统,避免技术、团队成为制约AI应用上线的瓶颈。为此百度与浪潮共同打造了一套AI交钥匙方案——ABC一体机,覆盖了人脸识别、智能安防、入侵检测等一系列企业AI应用场景,加快传统行业的智能化升级。
ABC一体机为加速行业AI转型提供了交钥匙方案
智慧计算,战略发展AI
浪潮是中国最大的AI计算平台提供商,根据IDC数据,2017年,浪潮AI服务器市场份额高达57%。而且浪潮也掌握了完整的软硬件AI平台技术,包括GPU服务器系列、管理系统AIStation、计算框架Caffe-MPI、应用特征分析系统Teye等。
AI是浪潮智慧战略的重要组成部分,也是浪潮重点发展的战略业务。目前,浪潮服务器出货量已经是中国第一、全球第三,浪潮希望通过AI、云计算等智慧计算业务的发展,在5年内成为全球最大的服务器供应商。
因此,浪潮对AI的投入一直在不断加大。2018年初,浪潮推出AI新品牌——TensorServer,并且启动了新的AI生态发展计划——代号为T,从创新、伙伴和人才三个维度入手,释放AI计算力的核心价值与能力,赋能企业在人工智能时代拥有坚实可靠的基础架构支撑。