比x86快四倍,Power9抢滩登陆AI

Power9与AC922服务器

IBM发布的第一款Power9服务器是一个双路的AC922,AC是(Accelerated Computing)加速计算的意思,代表计算加速的平台,922,9代表Power9,第一个2代表双路,第二个2代表2U。AC922每个CPU支持三块GPU,支持放2块,4块和6块英伟达Tesla V100 GPU,2块时候用风冷还可以,6块的时候就得靠水冷了,Power 8单块CPU只支持用NVLink连2块显卡。

Power有清晰的路径图,Power9有16,18,20,22核,最高44核。Power9采用14纳米制程,有八十亿个传感器,支持最多16 DDR4 DIMM通道,支持16G,32G和64G内存条,最高支持每插座1TB主内存。

2U双路AC922特性有三种IO连接技术,数据传输速度比单纯的PCIe 3.0快了近十倍。其中:

PCIe 4.0取代PCIe 3.0使CPU和显卡之间的通信速度快了一倍,PCIe 4.0 x16传输速度最高能达到32GB/s。

CPU和GPU互联技术NVLink 2.0与上代NVLink相比也有成倍大幅提升,也更强大了,NVLiknk不仅支持GPU与GPU之间高速互连,还支持CPU和GPU双向通信、内存共享,这是IBM Power独有的设计,当然,这是跟NVIDIA合作的产物之一,NVLink的出现还为未来支持GPU数据库做了准备,GPU数据库是另一个有颠覆性的技术,如果单看数据库性能的话,用GPU跑数据库会更有优势。

Power9的IO连接技术,NVLink连接CPU-GPU,GPU-GPU(图摘自the nextplatform)

从Power8发展到Power9,CAPI也从1.0升级到了2.0,CAPI(Coherent Accelerator Processor Interface)用的是PCIe 4.0 I/O插槽,速度翻倍为单通道16Gb/s,首先它原本也是IBM独有的技术,其核心理念是让I/O加速器与CPU共享内存和缓存,将CPU的能力外放,让板卡厂商能多做点事儿。

与此形成对比的是,英特尔多年来一直努力地把很多东西集成到CPU里面去,很明显大家的想法不一样,很多人认为这对创新和发展是不利的,英特尔把持的东西多而且生态又特强大,作为对抗的手段,现在IBM把CAPI开放出来了,叫OpenCAPI(比CAPI 2.0还快,单通道达25Gb/s)还拉着AMD、谷歌、Micron和Mennanox成立了OpenCAPI联盟,用OpenCAPI的方式连接专有的设备,比如Xilinx的FPGA,SCM,ASIC等。

之所以有NVLink和CAPI的出现,李永辉对记者解释说,最关键的原因是PCIe现在慢下来了。我们看到业内从PCIe 2.0到3.0花了很久,现在基本是PCIe 3.0,还没出现PCIe 4.0的处理器,IBM的Power9是第一个用上PCIe 4.0的处理器,与x86相比支持的IO特性更强,线程更多。

AC922为AI而生

此次发布的AC922服务器单台计算能力很强大,而且是为AI而生,具体就是可以加速Chainer,TensorFlow和Caffe。

图片来自:IBM官网

为了让Power能更好地跑AI负载,IBM发布了PowerAI,PowerAI是一个AI工具的企业级发布包这让加速上述几个开源框架成为可能,这些框架许多是不直接提供Power架构下运行的版本的,所以需要IBM自己做许多调优功能。IBM可以提供从底层硬件到上层AI环境的整套平台,用户做应用层就可以。

李永辉

IBM杰出工程师、大中华区硬件系统部首席技术官李永辉表示,这种调优对企业级用户是很有必要的,因为直接自己下载开源的东西是有可能染上病毒的,IBM可以为用户提供一层验证。

很多客户的很多关键的数据图像都在自己的防火墙内,很多用户需要构建自己本地的一种人工智能平台,李永辉在采访中表示。以上两点说明企业用户的特点,对安全隐私比较关注,云计算时代,人工智能火了,但并不是直接因为云计算才火的,有一部分的AI负载是用户私有环境下运行的。

为了说明Power9的在AI负载方面的性能优势,Power9做了深度学习测试,做法是用同样的GPU,同样采用来自ImageNet的数据,都用一样的AI模型——GoogleNet,结果发现比x86快了快3.8-3.7倍,将近4倍,这意味着模型训练的时间可以成倍缩减。

尽管单台计算能力已经很强大,但IBM表示Power9第一发的AC922是横向扩展的架构,2018年还会推出纵向扩展架构的服务器。

李永辉解释说,如今很多开源的软件都仅局限在一台服务器上,AC922打破了这种局限。通过Spectrum Conductor Deep Learning Impact IBM可以把人工智能的框架放到多台机器上运行。Spectrum Conductor不是新东西,是个原本IBM用在超算环境中的东西,它可以把一台服务器上的计算数据分享给多个节点,配合Power 9自带的多种连接技术,从而达到横向扩展的效果。

侯淼

为什么说Power9是为AI而生?最简单的说,是因为Power在AI负载方面最大的优势就是快。IBM副总裁大中华区硬件系统部总经理侯淼表示,AI的负载不同于传统转账(Transaction)负载,AI机器学习的训练时间越短越好。我们看到,Power9创新的架构设计,多种I/O技术的加入,多个AI相关的框架(Framework)的发布,多个合作伙伴的创新合作,强化了Power9相对x86架构计算的优势。

谁在用Power9

此次发布,IBM优先照顾了AI的市场热度,并没有强调太多关于支持小型机的内容,但Power9支持的内容显然不限于AI,在一张PPT里显示,AC922数据库处理的速度能提高1.8倍。

很多人已经在用Power9了。比如谷歌正在打造一款基于Power9的数据中心服务器,叫做Zaius,谷歌有意打破由英特尔和AMD垄断的x86数据中心服务器。

IBM基于AC922跟超融合代表领头羊Nutanix也有合作。

橡树岭国家实验室的“Summit”和劳伦斯利弗莫尔国家实验室“Sierra”超算系统用的也是Power9,这是最典型的应用案例之一,据说这台超算看重的就是高密度空间里Power9+GPU的这种能力。

由于英特尔长期以超高的市场份额占据着数据中心市场,许多行业人士都希望出现新的架构能更好地制衡英特尔,比如ARM架构,比如Power架构的新拓展,Power9的出现带来了新的希望,技术上有明显优势,但需要做的还有很多,打造更完善的生态。未来,希望看到市场上取得新的突破。