Zen 5架构的知微见著:从CPU微架构到包罗万象的人工智能

7月10日,在洛杉矶召开的2024 AMD TECHDAY上,AMD执行副总裁及首席技术官 Mark Papermaster 透露了Zen 5架构在处理器性能和架构方面的重大改进,包括重新设计的前端、更广泛的执行通道以及增强的分支预测功能,以及支持矢量数据路径和改进加载存储操作。

AMD执行副总裁及首席技术官 Mark Papermaster

来自Geekbench 5.4的基准测试数据显示,Zen 5架构指令分派率实现翻番至每周期8条指令,为算术逻辑单元(ALUs)引入统一调度程序以提高效率,执行窗口至 40%,数据缓存增加50%以保持低延迟。

这些变化旨在更好地处理更大的指令集,并增强数据通过处理器的移动,特别是支持更大的矢量数据路径和改进负载存储操作,同时提高整体系统效率。当然,它们也都是众所周知的微架构设计中最重要的元素。

Zen 5架构三大特点

Mark Papermaster总结出Zen 5架构的三大特点:一是采用更快、更小和更低功耗的晶体管,优化、节能和高性能,二是采用4nm甚至3nm领先制程技术,增强型金属堆,并继续深化与台积电合作;三是模块化设计,可应用到桌面、服务器、客户端和嵌入式。

具体到产品层面,新一代的Zen 5架构包括Zen 5、Zen 5 V-Cache和Zen 5c三种设计,涵盖锐龙9000 系列台式机处理器、带有锐龙AI NPU功能的AMD 第三代移动平台第三代以及面向服务器平台的第五代EPYC(代号“Turin”),均提供4nm和3nm版本。

Zen 5架构亮点令人瞩目

一、革新异构计算。

Mark Papermaster介绍说,Zen 5架构创建了具有单个ISA实现的异构CPU集群的新颖方法,此举允许在不同的核心类型之间进行无缝的软件优化,代表着硬件和软件创新相结合以实现最佳性能的重大进步。作为佐证,AMD与微软强大而密切的合作证实了其高效的软件调度能力,有效规避了在异构实现时可能遇到的许多陷阱。

二、AI、游戏和内容创作方面的重大改进。

IPC平均提升16%

IPC(Instructions Per Clock,每时钟周期指令数)提升是衡量处理器性能进步的一个重要标志。数据显示,Zen 5架构在各种工作负载上的IPC平均提升了16%,其中机器学习任务的单核代际提升高达32%,AES加密基准测试提高了35%。这些进步也展示了AVX-512和向量单元的强大功能。

三、深度协同优化 IP设计,实现高性能和高效率。

与代工厂和各类合作伙伴的合作凸显在持续优化金属堆栈以提高性能并降低电阻和电容,与铸造厂进行的深度设计技术协同优化,与合作伙伴改善电子设计自动化,在完整的内核家族中使用一致的电路库,并且还专注于模块化配置方面更多的灵活性等方面。在Zen 5架构上,这些合作再一次得到验证。因此,即将亮相的Epic处理器中,这些优化点将展现的淋漓尽致。

基于Zen 5架构的若干骨干产品

首先来聊聊第五代 EPYC 处理器——“Turlin”,亮点是高性能和增强的安全功能。被誉为“史诗级”的“Turlin”Zen 5c顶配版提供192核心与384线程、384MB L3缓存,最高TDP达到了500W,而基于Zen 5架构型号最多配备128核心与256线程,L3缓存为512MB,二者均提供4nm和3nm制程版本。

根据早些时候的信息,“Turin”至少提供20款采用Zen 5架构内核和Zen 5c架构内核的产品,均采用SP5插座。

安全是AMD始终关注的话题。“Turlin”继续扩展了AMD在机密计算、Trusted IO(可信I/O)、数据安全、内存加密、安全启动和运行时保护等诸多领域的领导地位。

事实上,这些技术在第四代EPYC处理器中得到应用。但Mark Papermaster特别强调,可信IO可将数据保护从加密的CPU执行扩展到存储和加速器是一个非常关键的补充,尤其在AI时它变得更加重要,原因在于人们不仅拥有大量常规的数据,而且还有比以往更需要保护的模型权重和训练模型。

第五代EPYC处理器将于今年下半年亮相。毕竟不是“Turlin”的发布会,所以Mark Papermaster没有透露更多的信息。

从第四代EPYC处理器开始,AMD发布聚焦电信及物联网行业的9004系列Siena处理器,第五代以及未来EPYC是否会推出更多面向细分行业的处理器?针对笔者的好奇,被誉为“Zen架构之父”的Mark Clark以“快了”两个字回应。

接下来是下一代Strix Point。Strix Point采用台积电4nm工艺制造,TDP为45W,CPU部分包括了4个Zen 5架构的大核心及8个Zen 5c架构的小核心。

据介绍,Strix Point具有异构设计的智能调度能力,作为紧急工作负载设计的新性能基础,具备两个独特的核心集群,一个针对峰值性能进行优化,另一个针对吞吐量进行优化,以此增强响应性和效率的增强灵敏度。当然,二者都是相同的ISA实现。因此程序员再也无需考虑不同的核心集群,从优化后的软件角度,无论做什么工作都变得更加简单。

关于代号为“Granite Ridge”的锐龙9000系列台式机处理器,Mark Papermaster的此次演讲中并未提及,笔者以后再做介绍。

Zen架构家族处理器系列中的最新成员、核显架构RDNA 3.5。显然,该架构并非首次推出。凭借顶级性能、全新统一计算单元、更快的芯片互连、高速缓存技术和全新显示及媒体引擎等特性共同作用,结合噪音抑制功能、Smart Access Memory技术、FreeSync Premium Pro等技术的应用,不仅在游戏领域,在专业图形处理和人工智能等领域也展现了AMD技术的领先地位。

移动端集显和桌面端集显的应用瓶颈分别是功耗和内存带宽等。AMD与三星等移动合作伙伴深度合作,通过以下三大举措来化解RDNA 3.5的能效瓶颈:一是优化每瓦特性能,无论是最常见的纹理采样操作子集对比普通游戏纹理操作,还是多数用于插值和丰富矢量ISA对比常见着色器中的操作,都实现了两倍速率的提升;二是优化每位性能,针对LP DDR 5内存进行改进,使得访问内存的频次更低但效率更高;三是专为更好的电池寿命设计,采取先进的GPU电源管理,最终实现RDNA 3.5在3D基准测试值(Timespy)提高了32%,DirectX基准测试(Night Raid)提高了19%,同时显著降低了能耗。

叹为观止:第七代Zen技术已经在路上

展示Zen架构路线图是备受AMD高管热衷的操作,Mark Papermaster也不落“俗套”。他声称现在甚至已经具备第七代Zen技术。即将亮相的Zen 6将会采取什么制程?你也许可以猜得到。

上述所有成功的原因被Mark Papermaster归结于AMD与台积电(TSMC)以及众多技术合作伙伴关系的强大合作的基础。

历次发布会上,AMD都会把友商的解决方案拿出来进行对比,但是这一次他们几乎没有这样做。笔者画蛇添足,做出如下不成熟的判断:在创新微架构、大幅提升的IPC、能效优化、安全性特性、制造工艺、核心数量和多线程、内存和I/O支持、成本效益等方面,基于AMD Zen架构推出的新产品已经具备领先优势,但不断扩大的生态系统和软件优化还需努力。

回顾7年前,当AMD推出Zen系列处理器时,吸引了业界许多人,他们与AMD一起同行至今。

“毕竟,这不仅仅是一个单一的产品,而是一个处理器家族。”Mark Papermaster表示,Zen 5架构带来的改进不会让市场失望,它代表着一次巨大的飞跃,也势必成为未来几代人的一个基座;AMD也将始终如一地按照既定目标向前进,为x86处理器带来更多性能。

赞(0)