从服务器产品路线图看AMD HPC市场雄心

最近一次对AMD财务分析日的报道勾勒出这个芯片制造商服务器未来几年总体战略规划的轮廓,为其在高性能计算领域如何发挥留下了极大的想象空间。虽然出席财务分析会的分析师没有特别针对高性能计算(以下简称HPC)市场加以阐述,取而代之的则是强调AMD要在主流服务器和客户端领域发力,但AMD服务器和嵌入式产品事业部营销经理John Fruehe的讲话还是让人们可以了解到AMD对于其高性能计算领域在2010年甚至之后的预期和前景。

也许有人会猜想当今的AMD或者英特尔是如何考虑HPC市场。尽管HPC市场的增长率要高于主流服务器市场,但是前者在服务器芯片总收入中只占到2%- 10%。在商用芯片业务领域,如此份额不足以激发出专门的处理器设计,而主流服务器芯片份额之大不容忽略。Fruehe表示,"HPC的美妙之处在于提供了一次性销售大量处理器的机会",而这足够让AMD考虑留在HPC领域。

任何情况下,同HPC工作负荷一样,许多主流企业应用需要同样性能特征:大量高速处理核心以及高内存带宽。即将发布的45纳米"Magny-Cours" 皓龙有着8或者12个处理核心,四个内存通道。此类设计非常适合于HPC的工作负荷,并且能够有助于AMD在今年获取更多的服务器市场份额。目前 "Magny-Cours" 的主要竞争对手是英特尔四核Nehalem-EP,该处理器有着三个内存通道,而八核的Nehalem-EX最多可支持八个处理器插槽。最后 "Magny-Cours" 要在内存带宽上超过Nehalem-EP,在价格和能耗上胜过Nehalem-EX。

"Magny- Cours"皓龙处理器代表了AMD高端6000系列(G34插槽)平台,锁定双路和四路服务器产品。由于该系列芯片在设计上强调了性能和扩展性,因此成为组建HPC的首选。AMD认为将双路和四路服务器系统整合至一个平台下会促进四路服务器的销量,目前为止后者仅仅在AMD服务器销售中占据5%左右的份额。问题在于4P芯片的价格溢价,而两个双路服务器相对更为经济一些,就算是应用更适合于四路服务器配置,但在价格因素下人们还是会选择两个2P服务器。

G34芯片改变了上述计算,如果应用没有被集群的互连性能绑定(相比I/O密集性能而言,更倾向于计算密集型),用户可以通过避免额外节点所需要的交换机和适配卡的费用来降低支出。AMD的建议是,如果某个HPC应用并未使InfiniBand互联处以饱和状态,那么四路节点集群就是不错的选择。

AMD预计将会于今年第二季度发布四核和六核"Lisbon"皓龙处理器,该芯片代表了低端4000系列(C32插槽)平台,支持单路和双路服务器。后者更倾向于注重能效而无需太过密集型计算集群节点的Web应用层企业应用以及云架构,尽管如此Fruehe还是表示4000系列适合于所谓的"corporate HPC",比如银行,汽车公司等32-128节点集群所占据的市场,能效更高,性能相对较低的处理器才是最终选择。

AMD预计将会于明年转移至"Bulldozer"架构,首个服务器产品将会是16核"Interlagos"以及8核"Valencia",这两款处理器芯片分别向下兼容G34和C32插槽,非常适合于那些只升级处理器的HPC客户。"Bulldozer"变化最大的变化就是整点(Integer Point Unit)和浮点单元(Floating Point Unit,FPU)之间的关系,直到现在皓龙处理器上的每个整点核心都是映射到单128-bit FPU。但是在实现"Bulldozer"的过程中,两个整点核心搭配有一个256-bit的FPU,以此是的浮点处理更为灵活。此外Fruehe还表示计划通过其他增强型FPU设计来提升芯片整体性能。

"Bulldozer"另外一个闪光之处就在于模块化设计,允许不同核心数量的芯片构建在同一个硅片设计图中。其实英特尔早就在Nehalem架构中就引入了模块化,但是对于AMD而言则具有特殊的意义,可以考虑将ATI GPU模块加入到芯片中。Fruehe暗示AMD在重新考虑FPU和GPU在通用计算中的角色,而这将致使旨在加强浮点能力甚至是彻底用GPU模块代替 FPU的芯片设计。随着时间的推移,越来越多的用户都会利用GPU来提升浮点性能。

或许现在谈及在服务器领域GPU模块化对于AMD而言还为时尚早,目前也没有将ATI GPU融合至皓龙处理器的计划。AMD产品路线图中CPU-GPU融合一体的"Fusion"芯片也只是用于客户端计算,采用了名为加速处理单元(APU)的架构。将高端GPU和CPU整合的最大障碍在于缺少裸片基板(die real estate)以及能耗限制,除非AMD引入22纳米工艺技术,否则很难在服务器芯片上融合Teraflop级的GPU。

短期内,AMD的目标在于寻找旨在提升性能的GPU逐步接近CPU的方案。尽管Fruehe未能阐述如何实现,但就目前来看不外乎如下两个方案:HyperTransport传输总线以及PCIe总线技术。考虑到目前显卡已经兼容PCIe接口,因此从GPU角度来看,后者更易于实现。想让CPU与PCIe更为适应,就必须改变插槽以及芯片结构。简而言之,在主板上添加HyperTransport-PCIe桥接通道。HyperTransport的方案则需要设计兼容皓龙处理器接口的GPU。

鉴于AMD是唯一一家在CPU和GPU架构上都有着很深的产品组合的芯片商,因此最大化利用CPU和GPU协同性是有相当意义的。在这一点上,英特尔重新激活Larrabee产品线抑或英伟达没有CPU的困扰都使得AMD保持了一种独特地位,和任何一家芯片商相比,无疑都是很大的优势。虽然特尔要在芯片制作工艺上比较领先,但是其缺陷却在于缺乏高端显示芯片产品。Frueh指出,正如英特尔在芯片制作工艺上领先AMD,我们在GPU技术上要远远超出对手,毕竟构建高端显示芯片引擎要比晶体管微缩要难很多。