最近,英特尔介绍了下一代数据中心处理器至强的更多消息。
首先,第六代就不叫“至强可扩展处理器(Xeon Scalable)”了,而是直接就叫“Xeon 6”,中文叫做英特尔至强6。
第六代至强将于今年陆续发布,如此前所说,会一分为二。
一种是全部采用P核的,代号为Granite Rapids,另一种全部采用E能效核,代号为Sierra Forest,两类处理器都支持同样的主板平台。
全新的第六代至强经采用Intel 3 制程工艺,本季度,英特尔即将开始生产代号为Sierra Forest的全E核的处理器。
这款处理器在云原生和容器场景,超大规模数据中心市场都有明显优势,能将机架密度提高至2.7倍,每瓦性能提高2.5倍。
比如,一家电信运营商原来有200个机架,机架里的服务器用的是第二代至强,如果换成是第六代,则只需要72个机架。
占地空间减少的同时,性能和功能特性都没有明显变化,但此时要管理的网络设别以及其他设备就减少了很多,最重要的是它能介绍1兆瓦的用电量。
预计在Sierra Forest推出后不久,英特尔还将发布全性能核的Granite Rapids。
在介绍Granite Rapids时,英特尔还是强调了在推理大模型时的性能表现。在介绍具体表现前,英特尔介绍了一个叫MXFP4的数据格式。
英特尔与ARM、高通和英伟达等公司合作制定这种新的数据格式,它能降低计算成本,提高效率。这个叫MXFP4的格式是一个4位的浮点数标准,但它通过一些手段让它不牺牲计算精度。
MXFP4是通过软件来支持的,所以第四代、第五代至强也都能用,不是第六代专属的。
基辛格展示了一个Demo,分别用第四代、第五代、第六代至强推理700亿参数的Lamma2,与使用原来16bit格式的方案相比,使用了MXFP4的第四代至强,推理时的Next Token的延迟降低了三倍。
换成第五代之后,推理时的Next Token的延迟降低了3.6倍,如果换成第六代至强,延迟会降低6.4倍,此时的延迟来到88ms,也就是降到了100ms以下。
100ms是推理时Next Token延迟的一个分界线,在100ms以下一般就意味着性能可以用。也意味着,在低位数数据格式下,能够显著减少完成同样任务的时间。
最后一句话总结,就是性能版的第六代至强,是完全可以推理700亿参数大模型的,比第五代至强更善于推理。