文无第一,武无第二,AI基准性能测试MLPerf不论怎么看都应该算场“比武”,有谁能够想到这场比武会出现两个“第一”?
10月22日,国内老牌服务器厂商浪潮和服务器新锐厂商宁畅,都推出文章表示旗下产品获得多项第一,“浪潮18项世界纪录” VS“宁畅30项世界第一”。对此,有媒体撰文发问“到底哪家强?”其实,详细比较双方报道,不难看出浪潮报道突出的是“整体性能”,宁畅报道突出的是定制“优化能力”。一个高举高打,追求性能;另一个强调在同配置下,追求对CPU、GPU的性能挖掘。一个“实力强”,一个“内功棒”,“赛道”不同确也都是第一。
作为老牌服务器领导厂商,浪潮表现可说在意料之中,而新锐厂商宁畅则更让人眼前一亮,其市场表现值得期待。
AI大咖云集“MLPerf”
AI确实给IT行业带来了巨大变化,但AI训练确也是一项花费巨大项目,以谷歌对Gmail邮件系统的训练为例,为实现Smart Reply功能,参加训练的数据样本就高达2.38亿封邮件,需调用庞大的计算资源,类似的谷歌翻译也对数万亿样本进行了训练。
从算力到能源消耗,AI训练以及推理都堪称“烧钱”的工作。尽管如此,钱肯定还是要烧的,这是AI训练及推理必须付出的代价。虽然如此,AI从业者还是希望让“烧钱”效率更高一些,期待对承载AI计算平台展开一场“华山论剑”,在此背景下MLPerf诞生了。
MLPerf是当前全球最具影响力的AI计算基准评测组织,由图灵奖得主David Patterson联合谷歌、斯坦福、哈佛大学等单位共同成立,每年组织全球AI训练和AI推理性能测试并发榜。
MLPerf的AI训练基准测试套件于2018年5月推出,初步结果于2018年12月公布。MLPerf推理套件发布于2019年6月24日,此次最新发布MLPerfAI推理基准测试有全球23家公司和机构参与,在数据中心及边缘等场景进行AI计算产品的性能比试。其中,数据中心部分最受关注,全部参与机构提交了507项性能测试数据。
就此次测试,11月22日,国内服务器厂商陆续发布新闻,浪潮宣称其配置
8颗第三代NVLink A100 GPU的NF5488A5,一举创造18项MLPerf推理性能记录,成为创纪录最多AI服务器。其中,浪潮NF5488A5创下了数据中心22个赛项中的13项性能记录以绝对优势领先,NVIDIA DGX取得了5项数据中心性能记录,单机性能高居榜首。
浪潮NF5488A5服务器
当天,国内服务器新锐厂商宁畅也宣布,其配置NVIDIA T4_/A100 GPU卡的Nettrix X640 G30 AI服务器,在ResNet、BERT、DLRM等基准测试中取得30项世界第一成绩。宁畅工程师表示,Nettrix X640 G30 AI服务器,最高可支持10张NVIDIA A100 PCIe卡或21张NVIDIA T4 PCIe卡。
宁畅 X640 AI服务器
对比同样搭载4张A100 GPU卡(4颗A100 GPU)的AI服务器,宁畅Nettrix X640 G30在Resnet50、SSD、RNN-T、BERT、DLRM等10项测试中分数值取得世界第一;搭载16张T4 GPU卡配置的情况下,打破6项世界纪录。搭配21张T4 GPU卡的X640 G30,测试分数斩获14项世界第一。
配置/环境不同,成绩众多
为什么MLPerf基准测试要发布如此多的纪录和第一呢?
作为MLPerf基准测试的开创者,为什么David Patterson、David Kanter等不做一个单一的MLPerf分数呢?其实也很简单,因为Kanter和他的同事希望MLPerf不仅能适用于广泛的工作负载,而且还能适用于大量的体系结构,因此,MLPerf不仅分为AI训练工作负载和AI推理,而且还根据图像分类、目标检测和自然语言翻译等不同任务,按照Single stream、Multiple stream、Server和Offline等四个场景进行衡量,此外还有“开放(Open)”和“封闭(Close)”场景划分。
配置、环境、场景不同,测试的指标以及约束条件就不同。其中,或考察延迟、或考察流数量处理性能、每秒查询数量以及数据吞吐量等。对聚焦不同AI应用场景的从业者,就需要对Resnet50、SSD、RNN-T、BERT、DLRM等进行深人比较,从中选择最具参考价值的信息。
要追求MLPerf基准测试成绩,主要取决于AI服务器所能够支持异构计算GPU卡的类型和数量,这也是AI服务器性能首要的影响因素。正因如此,拥有8块NVIDIA A100 GPU卡的NF5488A5和搭载21张T4 GPU卡的X640 G30都取得了超10项纪录的好成绩。
配置以及环境不一样,这就是两家公司都是“AI服务器性能第一”的原因,两家强调的方向不同,一个高举高打,追求性能;另一个强调,在同配置下,通过定制化追逐对CPU、GPU产品的性能挖掘能力。
小结
高举高打也好,追求定制“优化能力”也罢!应该说,都有各自拥趸和市场。同样针对图像分类、目标检测和自然语言翻译等AI应用,实力不同,阶段不同,用户的选择侧重,自然也会不同。
作为老牌服务器领导厂商,浪潮表现可说在意料之中,而作为新锐厂商的宁畅,则更让人眼前一亮。但好产品毕竟不是只用来“打榜”或“评分”的。期待两个性能第一AI服务器的市场表现,尤其是宁畅,作为初创企业其近日消息表明已中标6000万元知名互联网公司订单,并成为UCloud的主要服务器供应商之一,势头很猛。