多路芯发展之AMD——多核心低能耗

DOSERV服务器在线 6月14日原创报道:谈到AMD的多路服务器芯片,我们就不得不提到他们的皓龙6000系列平台,AMD将自身的芯片产品按照企业需求划分成了两个平台,即皓龙6000平台和皓龙4000系列芯片平台。其中6000系列平台主要面向的是双路及四路以上的服务器产品,也是我们今天主要讨论的对象。

去年四月份,AMD正式发布了研发代号为马尔库尼的8核心和12核心的x86处理器,面向双路和四路服务器市场,能够满足企业和主流计算苛刻的数据密集型工作负载,并具有先进的虚拟化和能源效率的特点。其芯片发展规划可详见下图:

 2010年AMD整合平台之后推出的马尔库尼芯片,是第一批皓龙6000平台的芯片产品,今年还会升级到16核/12核的“英特拉格斯”(Interlagos),采用更先进的32nm制造工艺和全新的“推土机”(Bulldozer)架构,仍使用Socket G34封装接口,保持平台的一致性和通用性。

该系列芯片主要面向主流的双路和高附加值四路服务器市场,其采用了45nm工艺,与上一代的“Istanbul”相同,具有8核心和12核心的版本,核心数量相比上代增加一倍。缓存容量加倍,集成了12MB L3缓存,比“Istanbul”多一倍。而且,8/12核心的皓龙6000提供了强大的浮点运算能力,更为适合高性能计算环境。

从目前来看,AMD主要销售的皓龙6000芯片有着以下几个技术关键点,因而可以应对多路服务器用户的需求,以求完成用户在关键业务上的应用。

*每插槽6个核心为虚拟化、数据库和Web服务等多线程环境提供了更高的性能和每瓦性能(与以前各代产品相比)*超传输技术辅助(HT辅助) 降低了处理器之间的缓存探查(cache probe)流量,可加快4路和8路服务器查询的速度,提高数据库、虚拟化等缓存敏感型应用和计算密集型应用的性能。

*超传输3.0 技术(HT3)将相互连接的速度从HT1的2GT/秒,提高到HT3的最高4.8GT/秒,有助于提高整个系统的平衡和可扩展性,支持高性能计算机(HPC)、数据库和Web服务等计算环境的扩展。

*AMD-P电源管理特性套件特性 AMD皓龙处理器包含了全套AMD-P电源管理特性,其中包括AMD PowerNow技术、 AMD CoolCore技术以及双动态电源管理™,这些创新有助于降低能耗和成本,使得基于AMD皓龙™处理器的服务器无论在任何地方都能跻身“最环保”的产品之列。

* AMD-Vi 支持I/O级的虚拟化,可为虚拟机(VM)提供对设备的直接控制(需要SR5690/SR5670芯片组)。该技术通过将设备直接分配给客户操作系统,提高性能,并可改善隔离能力,提高虚拟机的安全性。

另外,根据当时AMD发布马尔库尼芯片时所发表的资料来看,该芯片在功效节省方面有着出色的表现:

在下图中,我们可以看出全新的马尔库尼虽然相比前代产品增加了核心数量,但是在能效上却与之前的功耗保持不变甚至更低,这些都得益于AMD在CPU电源节能上的先进技术。

详解过AMD皓龙6000系列芯片的第一代产品后,我们来看下AMD即将在今年年底正式发布的“Bulldozer(推土机)”处理器架构的一些情况。该架构将采用32nm SOI 制程工艺,全面取代现有的45nm芯片制程,定位于高性能PC和服务器市场。

?该架构将两个整数单元与一个共享的浮点运算单元相结合,加大了整体浮点运算的速度。

?该图展示了双线程的工作原理,其整数单元独立在外,可以更好的完成多线程任务。

?推土机芯片架构的资源共享结构,同时保证两个整数运算单元的前提下,加入的浮点运算单元则与解码等操作进行资源共享,而且还加入了动态切换共享与专用组件的功能,可以令芯片根据任务的不同,来使用资源。

?另外,在年初的“推土机”芯片的预展介绍中,我们获得了更加详细的技术细节。

在Bulldozer模块中为起到提高核密度的目的,AMD把某些组件进行共享,而为了保持甚至是提高性能,把另外一部分保持分离。共享部分包括获取解码 并在浮点运算排成器、二级缓存方面共享,这样使得晶圆尺寸更小,从而容纳更多核。在整个架构中,为避免产生瓶颈,仍然维持整数预算调度器的独立性。

推土机的新功能——全核心加速技术

根据年初发布会中,AMD服务器产品市场总监John Fruehe先生介绍称:“Turbo Core主要是指对于一些没有完全消耗到最大程度的工作负载,去加快时钟速度。在多种不同工作负载上,使用了Turbo Core可以最大增加500兆赫兹的性能。最重要的一点,Turbo Core加速指的是所有核的加速,和有些核加速技术明显不同,以往的核加速技术可能需要关闭一些核,只对部分核进行加速。采用Turbo Core技术,最多可以使所有核增速500兆赫兹,如果再关闭一些核运转的情况下,加速将会超过500兆赫兹。同时我们还对内存控制器进行了进一步优化, 从而提高内存的吞吐量。8年前AMD首家推出集成内存控制器,根据AMD在这一领域的经验和非常好的技术,我们又在这一代产品中全面提升了内存控制器的性 能。首先我们对内存控制器在效率方面进行了针对性的重新设计和完善,因此实现30%的内存性能提升。在提升30%性能基础上,我们让内存支持1600兆, 所以可以获得额外20%的性能。两项加起来,可以实现内存控制器50%吞吐量提升。”

Turbo Core技术介绍

除了每个核心独享4个整数计算管线,在浮点运算上,“推土机”采用了“FlexFP”技术,两个核心共享一个浮点调度器和两个128位FMAC乘法累加器, 可以进行组合,每个时钟周期可以完成两次64位双精度计算或4次32位单精度计算。如果一个核心没有进行浮点运算,那么另一个核心可以占用这两个128位 的FMAC,在一个时钟周期完成4次双精度运算或8次单精度计算,AMD将其命名为 AVX模式。这种技术保证了“推土机”的浮点运算能力,在高性能计算中并不会因为“共享”而牺牲性能。