Kang, Yiqiang
我这话一问出口,电话那头的老客户陈工明显沉默了几秒……
看来陈工也忙里偷闲的看了最近大火的《隐秘的角落》啊!
陈工之所以托我推荐设备,是因为他们公司准备做AI训练场景的项目,正在做设备选型。市面上形形色色的设备太多,陈工第一时间还是想到了有过合作的戴尔易安信。
我了解到,前期项目是用于研发测试。研发用了之前的PowerEdge R740服务器,并配置了一块NVIDIA V100的显卡。虽说V100的单卡AI效能分析能够满足本次的AI模型,但研发提出,希望能用更多卡的机型来进行AI训练。
▐ 多卡NVIDIA V100的机型?这说的不就是我们戴尔易安信的DSS 8440吗!于是我当即给陈工发送了单台DSS 8440放10张V100的配置。
只可惜研发很满意,采购却嫌贵。如果减少卡的数量?研发又不同意。
于是,陈工就又给我打了电话。
有没有机会,当然要看能不能提供让研发和采购都满意的方案。
那么,它会不会适合这个场景呢?
我打开了RTX6000与V100常用AI模型训练与推理效能对比测试。
基于POC数据,针对主流AI图像分类模型训练,RTX6000性能为V100的70%-80%,V100的单卡性能更强。
针对主流AI图像分类模型推理,小数据量加载情况下(如batchsize=1或2,batchsize代表一次加载到GPU显存的图片数据),RTX6000性能更好,考虑原因是RTX6000峰值主频更高;大数据量加载情况下(如batchsize=16),V100性能更好,考虑原因是V100的显存带宽性能更好。
▲RTX6000和V100的参数对比
▲RTX6000 vs V100 AI效能对比
显然,有了上面的对比,我这心里就踏实多了。对于需要高性能机器学习但不需要绝对高性能的用户来说,RTX6000是一套高性价比的机器学习训练替代方案。
此时,符合陈工需要的替代方案已经呼之欲出,于是我立即编辑邮件发给陈工。
方案邮件发出去没多久,我就接到了陈工的来电:
关于戴尔易安信HPC
如今,GPU在PC、工作站和服务器的运用越来越重要。而随着5G建设带来的更多大规模并行计算场景,也让GPU有了更多的用武之地。
而随着人工智能,深度学习的训练和推理等场景的广泛需求,企业越来越需要能够适应多卡GPU场景的服务器。这也为戴尔易安信PowerEdge创造了更多一展身手的舞台。
戴尔易安信PowerEdge多款服务器都支持多卡GPU,比如塔式最经典的T640系列,机架式R740、R740XA、R840、R940xa,包括AMD平台的R6515、R6525、R7515、R7525,模块化服务器C6525,以及特别的两款机型C4140和DSS 8440。
戴尔易安信PowerEdge系列具有以下三大特点:
1
DSS 8440是业界唯一支持8*Graphcore IPU、10*V100S/RTX8000/RTX6000或16*T4的加速器平台。
DSS 8440 IPU服务器是双插槽4U服务器,能够为机器智能应用提供卓越的性能,8个Graphcore C2 卡(双IPU)可提供高达1.6PetaFLOP的混合精度机器智能计算能力。
▲DSS 8440-8个Graphcore C2 卡(双IPU)
为什么要创建智能处理业务单元IPU?
这是因为客户需要一种新型处理器,以便更有效地支持更复杂的知识模型,快速进行训练和推导,让CPU和GPU为机器智能领域的创新者提供更多支持。
2
首发V100S在戴尔易安信PowerEdge 8款服务器平台(C4140/DSS 8440/R7525/R740/R740xd/R940xa/R840/T640)。V100S的机型目前多数友商还没有搭载RTS。
▲DSS 8440拓扑– 多达 10个V100S GPU
3
戴尔易安信PowerEdge是支持RTX6000/8000最多的Server/HCI平台,共有7款(DSS 8440/R7525/R740/R740xd/T640/VxRail V570/570F)。对于需要高性能机器学习但不需要绝对高端性能的V100S GPU的客户来说,RTX6000/8000提供了成本更低的机器学习训练替代方案。
这两个加速器的成本比V100 GPU 低约30%,同时仍有其大约70%的性能,目前业界只有两个友商的各自一款机架式机型能够满足。
▲比较Nvidia现售GPU规格
尊敬的读者
说到GPU在AI方面的重要作用
下面这个课程
正是为您准备的
戴尔科技精品课
特别带来AI培训课程系列
本次课程
戴尔科技集团
大中华区人工智能企业架构师 吴跃
将和您探讨当今GPU计算优化技术
并阐述IO瓶颈的关键节点
纵览当前主流AI深度学习存储方案
欢迎扫描下图二维码
参加我们的课堂
相关内容推荐:倒计时1天︱又一款Power新品破浪而来!
相关产品:PowerEdge R740 机架式服务器