产品速递:英特尔下代安腾芯片全面揭秘

安腾处理器几乎被所有人都遗忘到脑后了,但是英特尔和合作设计64位处理器的惠普则依然坚守着这个阵地。这主要是因为惠普受制于HP-UX,容错服务器和OpenVMS对安腾处理器的需求,毕竟惠普每年要为这些系统花费数十亿美元,因此这也让英特尔觉得安腾处理器的研发物有所值。

未来的"Poulson"安腾处理器将在旧金山召开的电气和电子工程师协会国际固态电路大会的企业级处理器周一研讨会上亮相,但是为了避免"Poulson"安腾处理器陷入中央处理器新闻宣传的混乱局面,英特尔为分析师和新闻媒体提供了将在国际固态电路大会上公布的"Poulson"安腾处理器的某些细节。

正如大家所预期的那样,"Poulson"安腾处理器是一款八核处理器,但这款处理器并不仅是目前四核"Tukwila"安腾9300处理器(去年在国际固态电路大会上推出)的缩小版。Poulson处理器不仅跳过了英特尔公司处理器制造工艺流程常规的交替式tick-tock架构设计的某些步骤,而且同时进行了tick和tock(即提高了制程又改进了处理器架构),由于从Tukwila处理器的65纳米晶圆制造工艺发展到英特尔目前的32纳米制程工艺,就完全跳过了45纳米的制程工艺。

这种变化就是tock。而tick就是与之相适应的全新的安腾微体系架构和完全重新设计的核心。

Poulson处理器是安腾处理器家族的第九代成员,安腾处理器已经有超过10年的历史,计划在英特尔规划的光明未来中取代X86处理器,其他的安腾处理器合作伙伴在上世纪九十年代中晚期开始支持英特尔的安腾处理器研发计划。显然这些并没有发生,除了惠普公司外,其他接纳安腾处理器的合作伙伴开始支持英特尔的高端至强7500系列处理器,但是他们不想再次转移到其他的处理器体系架构上去。

尽管安腾处理器并没有直接改变世界,但它确实间接的改变了整个处理器行业,给了AMD公司一个将其64位皓龙处理器推向市场的机会,因为安腾处理器无法与至强处理器相互兼容并且在系统中的实际应用也是多次延迟。AMD皓龙处理器的初战告捷令英特尔公司将精力主要集中在至强处理器产品线的性能,能耗,内存寻址和RAS的特性上,最终处理器市场被声名显赫的至强处理器,皓龙处理器和安腾产品线所统领,为不同的系统提供满足不同需求的处理器,为惠普,Bull和NEC提供有利可图的专有处理器。

如果英特尔将处理器销售给惠普,将其研发出来并售价3700美元的话,他们就会这样去做。英特尔公司并不关心这些。惠普的动能服务器和Superdome 2服务器销售情况好的话,服务器制造商就会非常高兴的坚持使用安腾处理器,就像甲骨文/富士通可以从Sparc系统中获得收益,IBM坚持大型机和POWER系统一样。安腾处理器不会占据整个世界,但是就像其他的RISC和大型机平台一样,安腾处理器确实能掌控其小生境市场。

在Poulson安腾处理器的介绍简章中,英特尔公司负责微处理器研发的总监兼体系结构事业部副总裁Rory McInerney表示,Poulson处理器是实质上进行了重新设计,英特尔公司运用未来的思维加以设计。McInerney的意思是微体系结构设计发生了变化,核心布局可以允许英特尔扩展到将来的"Kittson"安腾处理器,无论在接下来的几年里处理器制程工艺发生了什么变化。

下面就是Poulson安腾处理器的外观:

Poulson安腾处理器集成了八个核心,有两个目录高速缓存,五个QuickPath互联架构连接,两个内存控制器,两个共享L2高速缓存和一组系统逻辑分区。这款处理器一共集成了31亿个晶体管,体积为588平方毫米。与之相对比的是英特尔的Tukwila安腾处理器,这款处理器有四个核心,总计集成了20万个晶体管,体积为70平方毫米。制程工艺从65纳米缩小为32纳米(缩小了一半),这样就能在芯片上集成更多更密集的晶体管,处理器的体积也缩小了将近20%,热量设计点也有轻微减少,从高端Tukwila 处理器的186瓦减少为速度最高的Poulson处理器的175瓦。

McInerney表示英特尔公司此次不会公布Poulson安腾处理器的时钟频率,但是估计处理器体积的缩小可以帮助英特尔公司将处理器的时钟频率提高一些。估计提升的比例不会超过20%,因为时钟频率和散热的关系是相反的,而不是一致的。或者说,英特尔公司可能会利用额外的晶体管来更好的实现超线程。估计会像IBM在POWER7处理器上部署的每个核心有四个线程。不过以下讨论的核心设计表明英特尔公司关注的重点并不在时钟频率上,而是更加关心每个时钟的实际产出和能降低多少能耗。

你愿意共享插槽吗?

Poulson安腾处理器一个内存总共有54MB的容量,包括L1和L2高速缓存,标识符和注册器以及目录高速缓存。其中50MB的容量为静态随机存储高速缓存。每个核心上有256K的中级数据高速缓存和512KB的指令高速缓存(你可以称其为L2,但是出于某些原因英特尔公司并没有这么这样描述它),外加32MB的共享L3高速缓存。L3高速缓存看起来被分成了两个16MB的存储单元,事实上,Poulson安腾处理器看起来就像两个被连接在一起的四核处理器(正如你所期望的那样)。目前尚不清楚每个Poulson 核心上有多少L1高速缓存和有多少高速缓存用于标识符,注册器和目录(我们会从国际固态电路大会上寻找答案)。

为了改进Tukwila Itanium 9300系列处理器而分别在2008年和2009年进行的两次延期推出的其中一次就是服务器制造商希望Tukwila, Poulson和Kittson安腾处理器能共享同一个插槽,如其所望,Poulson安腾处理器将可以插入为Tukwila处理器设计的LGA 1248插槽,因此将来的Kittson处理器也同样可以做到。因此升级将变得非常容易。估计英特尔公司会在安腾处理器平台上构建一些带宽的空间。

McInerney表示英特尔确实是这么做的,事实上,去年Tukwila 处理器推出时,安腾9300系列和志强7500处理器共享的"Boxboro"芯片集和内存主板就已经采用了这种设计。这也是为什么英特尔能够将QPI的速度从Tukwila处理器的每秒4.8GB提高到Poulsons处理器的每秒6.4GB的原因所在。假如将来的至强处理器和安腾除非拉起需要更多的带宽,那么Boxboro芯片集甚至可以提升的更高。Base 2建议每秒9.6GT的传输速度就是QPI总线的下一个目标。这就是我们所知道的,已经在Boxboro芯片集的设计当中,只是还没有实际应用。

以下是最新的Poulson安腾处理器核心的外观:

Poulson安腾处理器体系结构上大的变化就是EPIC大型词汇指令并行打包机制被拓宽了一倍,从六个指令处理提高到12个指令处理。理论上来说,能正确执行应用软件的混合指令,与Tukwila处理器相比,这应该就相当于将Poulson处理器的性能提高了几乎两倍。这也是为什么笔者认为英特尔不会讲Poulson安腾处理的时钟频率从Tukwilas处理器的1.73GHz提高到1.33GHz。涡轮推进的速度也有所提升,估计会超过1.46GHz到1.86GHz。

由于核心数量增加了两倍,指令处理的数量也相应增加了两倍,超线程的数量可能也翻倍了。在插槽级别上,Poulson安腾处理器的性能应该是Tukwilas安腾处理器的三倍,四倍或者五倍这取决于线程和12宽EPIC指令包的效率。其他的八种安腾处理器都是6宽处理器,目前尚不清楚应用软件将如何利用12宽的指令包。

笔者可以告诉你的是用户在迁移到Poulson处理器时,将不必重新编译他们的应用软件。McInerney解释说"我们估计用户将无需再重新进行编译了"。他还补充说在任何新的处理器应用上,重新编译通常都是压榨系统性能所必需的。但是在性能对比上,英特尔公司即将推出的Poulson安腾处理器将采用上一代安腾处理器的代码,因此无需重新进行编译。

Poulson安腾处理器核心还采用了全新的数据和指令传输途径,全新的浮点传输通道以及全新的指令缓冲器。处理器还拥有大量动态的能量管理特性,比如安腾处理器的门能量使用和目前的内存控制器和内存子系统。当系统闲置时泄漏电流,提取能量,这样当运行工作负载时就能减少所消耗的能量。见下图:

在这张图示中,英特尔展示了Tukwila处理器到Poulson处理器在几种能量刻度测量上的比率。蓝色条显示的是Tukwila,红色条显示的是如果Tukwila处理器没有发生变化会发生什么,只是在32纳米制程工艺下。尽管Poulson安腾处理器只能比32纳米的Tukwila处理器减少30%的电流泄漏,但是Poulson安腾处理器在闲置是能减少70%的能耗并在运行工作负载时有60%可以加以利用(这就是TDP活动数据)。总的来说,从这些测算比率上来看,Poulsons安腾处理器消耗或者损失的能量约为65纳米制程的Tukwilas处理器的五分之一。

最后,Poulsons安腾处理器还囊括了一系列目前Tukwila处理器所不具备的全新特性,比如错误侦测,纠错和防御技术。英特尔公司还增加了浮点指令错误侦测,软件纠错和高速缓存错误覆盖等。处理器还能允许记录更多关于错误的信息来提高数据恢复能力,有时还能自动完成。

毫无疑问,英特尔和他们主要的安腾处理器合作伙伴惠普希望Poulson安腾处理器的技术规格能平息一切有关安腾处理器行将灭亡的传闻。

McInerney在电话中表示"正如这次安腾处理器研发的成果所证明的那样,英特尔公司的承诺是非常坚定而强烈的,不会发生动摇"。

不要指望IT市场上的某些人会去相信这种说法。他们从不相信。

英特尔没有透露Poulson安腾处理器会何时推向市场,不过看起来应该是在2012年初,Kittson安腾处理器估计是在2014年初推出。