英特尔发布地表最强AI加速的CPU——第三代至强可扩展处理器

2020年6月19日,英特尔发布多款数据中心级产品和方案,包括第三代至强可扩展处理器,第二代傲腾和PCIe 4.0 SSD,以及一款为AI设计的FPGA新品。

第三代可扩展处理器:最懂AI的CPU

今年2月,英特尔发布了几款二代至强可扩展处理器的升级版,当时提到,这次发布在性价比上有较大提升。四个月之后,北京时间6月19日,英特尔全球同步发布第三代至强可扩展处理器,发布节奏明显比前几年要快了许多,要知道第一代至强可扩展处理器是2017年发布的。

其实,今年二月份发布的是通用性更强的方案,而此次发布的第三代至强主要是面向四路和八路市场的处理器,主要应用于高性能计算这类场景,与二月份的发布并不冲突。

不过,英特尔也表示,今年下半年晚些时候会发布基于Ice Lake的单路和双路版本,主打通用场景。2021年将发布下一代可扩展处理器,从单路到八路全面覆盖。

三年计划了三代产品,英特尔产品迭代速度明显加快,对用户来说是再好不过的事儿了,一方面产品性能步伐加快,带来直接的性价比提升,另一方面,丰富的SKU给了用户更多选择,根据需求,选择合适的方案也能带来降本增效的效果,对整个行业的发展也能够起到积极推动作用。

此次发布的第三代至强可扩展处理器包括白金8300系列,黄金6300和5300系列,其中8300系列有四路和八路两种配置,最高28核心,6内存通道,最大支持单路4.5TB内存,标称TDP最高达250瓦。黄金6300和5300系列只有四路配置。

第三代至强可扩展处理器主要强化了安全性和多核计算性能,适用于业务关键性负载,实时分析,机器学习以及混合云等工作负载。与五年前的平台相比,平均性能提升1.9倍,跑数据库的性能最高提升1.98倍,运行的虚拟机的数量达到前者的2.2倍,作为市场上唯一可提供八路x86服务器处理器的平台,至强同时还集成了深度学习加速的功能。

从第一代至强可扩展处理器开始,至强就在往AI上靠,第一代加入了AVX-512指令,优化了FP32计算能力,2019年第二代可扩展处理器中引入了深度学习加速技术(Intel Deep Learning Boost),提升了Int8推理能力,第三代至强可扩展处理器在深度学习加速技术中加入了Bfloat16数据格式。

BFloat是一种越来越流行的加速机器学习的浮点格式,最早出现在谷歌的TPU里,英特尔和ARM以及许多新的AI芯片公司也都将其视为AI加速架构的核心功能之一,可见其重要性。对比BFloat16与FP32,BFloat16大多数情况下有FP32的准确性,而效率要高于FP32,可以看做是FP32的改良版。

英特尔第三代至强可扩展处理器在AI性能方面表现如何呢?BFloat16的加入,让第三代可扩展处理器提升了训练和推理方面的能力,从图中可见,CPU在推理方面的提升更多一些。与第二代可扩展处理器上使用的FP32格式相比,训练性能最高能提升1.96倍,推理性能最高能提升1.9倍。另外,与上代相比,在图像分类的训练性能提升了1.93倍,推理性能提升了1.7倍。

对开发者来说,需要极少的代码改动就能用上新平台,所以,目前包括阿里云,蚂蚁金服,腾讯云,东软等国内厂商都已经用上了带有Bfloat16的处理器,在推理和训练性能方面有近两倍的提升。

AI作为最新最热的工作负载类型之一,颇受英特尔的关注。英特尔一方面致力于把至强打造成最适合AI的CPU,同时,还希望把GPU、FPGA等各种硬件加速方案组合在一起,共同解决AI工作负载。不过,英特尔此次发布会中没有提及GPU的细节,只是说Xe GPU正在开发中,可能会在今年下半年的发布中做一些介绍。可以说,第三代至强可扩展处理器是市场上AI能力最强的CPU,是最懂AI的CPU了。

第二代傲腾持久内存

第三代至强可扩展处理器同样支持傲腾持久内存,而傲腾持久内存终于迎来了新一代产品——Optane Persistent Memory 200系列,傲腾持久内存的提升可以按照内存的要求来看,就是容量更大,性能更高。

上一代傲腾持久内存配合第二代至强可扩展处理器,单路最高能放6条512GB持久内存,最大3TB持久内存。200系列能在单路第三代至强可扩展处理器上提供最高4.5TB内存,包括3TB的傲腾持久内存和普通的DRAM内存,单条可用容量没变,有128GB,256GB和512GB三个型号,支持与普通DRAM公用内存插槽,支持两种内存的混插。

另外,性能方面,带宽平均比上代提升了25%,与主流的NAND SSD相比,可以把数据传输访问效率提升225倍。

傲腾持久内存掉电不丢数据,能加速系统故障之后重新启动的时间,未来可能会有越来越多的利用这一特性的应用出现。

大容量内存的好处毋庸置疑,能更好地支持内存数据库,能减少服务器数量,进而还能减少License授权费用,对TCO的好处是许多用户选傲腾的重要原因。

PCIe 4.0终于来了

另外,英特尔还发布了D7-P5500和P5600两个系列的NAND SSD,它采用了96层的TLC而不是QLC,接口协议方面,支持PCIe 4.0和NVMe 1.3c,4K随机读最高一百万IOPS,4K随机写IOPS最高能达到26万,延迟也有大幅降低,作为一款强调性能的产品,该系列SSD主要用在全闪存阵列当中,支持人工智能和大数据分析等IO密集型场景。

2019年下半年以来,市场上开始出现PCIe 4.0 SSD,有消费级的,也有企业级的SSD,这次应该是英特尔首款PCIe 4.0 SSD,CPU平台也会有一些支持,英特尔平台对于PCIe 4.0的支持,标志着市场真正开始转向4.0了。

首款面向AI优化的FPGA-Stratix 10 NX

英特尔有一系列FPGA,而最新发布的FPGA-Stratix 10 NX是面向AI设计的,英特尔在其中嵌入了AI优化模块AI Tensor,与现有的Stratix 10 MX相比,前者的Int8计算性能要高出十五倍。

Stratix 10 NX在定位上是作为至强处理器的补充,专门针对特定应用提供定制,为了进一步优化性能,英特尔重新设计了计算模块(DSP模块)。

在自然语言处理,在欺诈检测,在智慧城市等场景中,Stratix 10 NX的表现都几倍于英伟达显卡V100的表现。

尽管GPU是AI计算领域应用的最为广泛,但许多新的面向AI场景设计的芯片,包括Stratix 10 NX这类FPGA还有一些IPU之类的,在一些场景下的表现都优于GPU,AI芯片会随着AI计算负载的变化还继续演进。