在加州举行的年度高性能处理器研讨会Hot-Chips 23上,IBM、Intel、AMD等各大巨头都没有公布全新的产品或者技术,而是继续翻出老一套进行深入宣传和“布道”,AMD最重点的当然就是“推土机”了。
推土机的核心架构图我们已经见识过很多次了,但这种来自AMD官方、详细标注各个模块名称和相对大小的却不多见,而且它第一次公开了推土机处理器的 核心面积:八核心型号为315平方毫米。做为对比,32nm Gulftown六核心为240平方毫米,32nm Sandy Bridge四/双核心为216/149平方毫米,45nm Phenom II X6/X4分别为346/258平方毫米。
从图上可以清晰地看到推土机的四个模块(八个核心)、四组2MB二级缓存、四组2MB三级缓存、四条HT总线、DDR3内存控制器、北桥模块、I/O输入输出等等。六核心和四核心型号都是在此基础上屏蔽部分模块(核心)和缓存而来的。
一张架构图和架构特性简介:推土机的家族编号为Family 15h,是AMD K8以来的首个全新设计处理器架构,最大特点就是每两个整数核心加一个浮点核心组成一个模块,进行资源的共享。
推土机的每个核心都有自己的16KB 4路关联一级缓存,每个模块有自己的2MB 16路关联二级缓存(两个核心共享),然后所有模块与核心分享最多8MB 16路关联三级缓存。三个级别缓存的缓存行(cacheline)都是64字节的。
另外推土机处理器还集成了两个72-bit DDR3-1866内存控制器通道,以及四个16-bit接收、16-bit发射HyperTransport总线链接。
推土机处理器的桌面版本Zambeizi将改用新接口Socket AM3+,可支持低电压内存,ILDT电流增加到最高2.0A,从而将HT总线速度提升到最高5.2GT/s,IDDR电流也增加到最高4.0A。
推土机将主要搭配990FX、990X、970北桥芯片和SB950南桥芯片,理论上也向下兼容8系列芯片组,但老主板需要硬件改造或者BIOS刷新才行,而且可能无法发挥推土机的全部实力。
Socket AM3+插座具备向下兼容性,即新主板仍可安装Socket AM3接口的Phenom II/Athlon II系列处理器,但反过来不行,也就是AM3插座的主板无法使用AM3+推土机处理器。
推土机架构的首要理念就是每个模块由两个核心组成,对于整数管线、一级数据缓存等等分别予以执行,而对于浮点管线、二级缓存则由两个核心共享合作完成。
AMD表示,这种做法能够让每个核心在需要的时候完成更多功能、发挥更高性能,同时节省核心面积,比每个核心都单独割裂开来效率更高。
下边来看推土机每个模块的具体组成,首先是两个核心共享的前端
两个独立的整数核心
中间夹着一个共享的浮点核心
二级缓存和数据预取器也是两个核心共享的
FX-8150结构图:这是AMD官方文档第一次明确提及FX-8150的型号命名,最终证实了它的存在,只是这里并未提及频率规格,仅仅在总体架 构上做了简单示意。负责各个模块、核心同步的系统请求队列(SRQ)其实也不是新技术,从AMD第一代双核心Athlon 64 X2就有了。
电源管理方面,推土机增加了新的核心状态Core C6(简称CC6),可在某个核心空闲的时候借助功率门控(Power Gating)将其彻底关闭。
当模块内的两个核心全部空闲时,缓存和寄存器状态都转储到CC6保留空间内,然后关掉Core VSS,恢复的时候则重新载入CC6保存的状态,继续执行。
处理器通过核心电源状态(Core P-States)定义多个频率和电压运行点,其中高频率电源状态可以带来更高的性能,但需要更高的电压和功耗;硬件和操作系统会根据核心当前所处的具体 电源状态来提供所需的性能,但如果可能的话,会尽量使用更低频率的电源状态,以节省功耗。
推土机将支持AMD的第二代Turbo Core动态加速技术,在处理器低于功耗和发热量极限的时候自动提升频率、电压,直到达到功耗和发热量极限再降回来。
另外从曲线图上还可以隐约看出,AMD给推土机设想的电压最低应该只有0.7V,最高也不过1.3V左右,但因为GlobalFoundries 32nm工艺的不成熟,我们看到大量推土机样品的实际常规电压都达到了1.4V以上,不过据说刷了最新BIOS之后已经可以降到1.2V。
第二代Turbo Core技术的两大特点:一是在多线程敏感应用中支持所有核心同时加速,只要热设计功耗允许就行;二是在频率敏感应用中可以让半数模块进入C6关闭状态,另一半模块则以更大的幅度加速,最多可以提速1GHz。