从量变到质变 揭秘AMD服务器架构内幕

去年底的时候,AMD曾经官方公布过一份服务器产品路线图,计划2012年推出32nm工艺的20核心处理器。根据最新规划,2013年的时候AMD服务器处理器核心数量最多仍将停留在20个,但生产工艺会进化到28nm。

Intel 32nm之后正在积极进军22nm工艺,而做为AMD代工厂的Global Foundries也正在同步开发22/20nm工艺,不过看起来至少在服务器上,AMD的工艺会变得保守一些,不再直奔22/20nm,而是选择了半代 节点的28nm,就像APU处理器、GPU显卡上那样。

那么桌面上呢?是否也会在32nm之后全面使用28nm?这个目前还不得而知。低功耗版APU会使用台积电和Global Foundries 28nm工艺,推土机架构的APU和独立CPU则是32nm,再往后就只能等等看了。

回到服务器上,现如今服务器市场可以细分成很多不同的子分类,从非常类似于普通台式机电脑的单路服务器到目前双路服务器再到四路甚至多路的高级服务器。需要指出的是双路服务器处理器芯片往往应用于高端的工作站中。

AMD“大锤”第一个应用于服务器CPU的核心

“大锤”是AMD第一个应用于服务器CPU的核心, 0.13微米制造的工艺,具有128KB一级缓存和1MB二级缓存,接口为Socket940形式,集成三条HyperTransprot总线,提供了对 双通道DDR内存(必须为ECC Registered DDR内存)的支持,支持SMP多处理器并行工作模式,初期发布的皓龙仅仅只有支持双路的opteron 240 、opteron242、opteron244三款单核心处理器。

 
Opteron242双路处理器

详情见下表:

不过,同年稍晚的六月,不甘落后的AMD又推出了“Sledgehammer”的单路和四路服务器版本的处理器:单路处理器主要针对底端方面的应用如个人计算机,而高端针对一些大型的科学计算。

单路:

 

四路:

AMD做事情仿佛有点拖拉,这也成了以后一贯的风格,在其后的8,9,11月以及次年的5月,断断续续的发布了更高频率单路,双路,四路的处理器。

同时,市场上出现了一些低功耗版本的opteron处理器,例如单路的opteron140EE,双路的opteron240EE ,四路的opteron840EE,功耗仅仅只有30W,另外还有55W功耗的 opteron146HE,opteron246HE,opteron846HE。

AMD第一个使用90nm制造工艺的Venus(维纳斯)核心

第一代的AMD 皓龙处理器,都使用了相同代号核心,只是支持处理器的数量不同,而到了2005年8月,AMD发布了第一个使用90nm制造工艺的Venus(维纳斯)核 心、它是在Sledgehammer基础上增添了多项新技术而来的,为单路的939针脚,拥有128K一级缓存和1MB (1,024 KB)二级缓存。使用200MHz外频,支持1000MHz的HyperTransprot总线,集成了内存控制器,支持双通道DDR  400内存,并且可以支持ECC 内存。另外核心还提供了对SSE-3的支持,产品命名方式也是opteron1XX。这一系列的单路皓龙,能在普通的PC主板提供完美的支持,所以,深受 电脑发烧友的追捧,用这个来搭配家用电脑或者游戏平台,性能强劲,  被誉为“平民的法拉利”,经久不衰,堪称经典。

 
皓龙 144

详情见下表:
维纳斯(2005年):

另外,单路的opteron还有一些代号为“SanDiego(圣地亚哥)”,其技术参数和Venice非常近似,我们也可以把这个看成是Venice可以将SanDiego看作是Venice核心的高级版本。具体型号,笔者无法考证。

同时,AMD还发布了代号为“Troy(特洛伊)” 的双路、以及支持4路以上的800系列叫做Athens(雅典)的核心。

特洛伊: opteron 242―opteron 256,频率从1600MHz-3000MHz-雅  典: opteron842-opteron856,频率从1600MHz-3000MHz

当然还有一些低功耗版本(55W)的皓龙处理器,如双路的opteron246HE 、opteron248HE、opteron250HE,四路的opteron846HE、opteron848HE、opteron850HE。

2005年下半年,AMD发布了代号为Denmark(丹麦,采用Socket 939),持双颗架构代号为Italy(意大利 、940接口),代号为Egypt(埃及、940接口)。这些处理器都是双核心处理器,采用了90纳米制程,SOI工艺,主要面向服务器和工作站领域的应 用,支持AMD64位技术。支持单颗架构的Opteron 165(1.8GHz)、170(2GHz)、175(2.2GHz)以及180(2.4GHz);支持双路的Opteron 260(1.6GHz)、265(1.8GHz)、270(2GHz)、275(2.2GHz)以及280(2.4GHz);以及支持8颗串接的 Opteron 860(1.6GHz)、865(1.8GHz)、870(2GHz)、875(2.2GHz)以及880(2.4GHz)。当然,双路主板也会支持 opteron800系列的CPU。以上算是opteron服务器处理器的第二代产品(K9)。 

作为早期的AMD进军服务器市场的皓龙处理器,由于生产工艺的影响,在频率上远不及intel同时期的XEON处理器,但是AMD凭借先进的设计理 念,采用了直连架构,也就是在opteron处理器上内部集成了内存控制器,减少CPU访问内存数据的时间,从而在处理性能上和intel不分伯仲。从而 奠定了服务器市场的坚实基础。

AMD新款皓龙(Opteron)处理器

2006年8月15日,AMD发布了新款皓龙(Opteron)处理器。新款的opteon处理器还是处于双核的阶段,接口也和K9架构的处理器有 了很大的改变,我们称之为SocketF1207接口,皓龙包括Budapest(布达佩斯)和SantaRosa(圣罗莎)核心两种,都采用采用 90nm的Rev.F工艺,Budapest核心实际上基于和桌面处理器一样的AM2接口,同样也能用普通的PC主板来提供支持,,他主要面向于个人工作 站以及底端的服务器市场。核心为SantaRosa为1207针脚,双路和多路均采用了这个核心。功耗方面,除低功耗版55W及正常版本95W,还有超低 功耗的30W版。另外,还将有重视性能的140W版本。外频提高到1333MHz,支持DDR2533/667/800ECC内存。

当然,还有一些高功耗的版本处理器出现,不过笔者以为,这些都是经过超频而来的。作为单路处理器的补充,Santa Ana(圣安娜)在2007年的2月份发布,功耗只有65W的圣安娜,全部为低功耗版本,型号从皓龙1210-1218,频率从1800-2600。

2007年的9月,AMD高调发布了采用K10架构、代号为Barcelona 巴塞罗那的皓龙处理器,它采用了65纳米的SOI制造工艺,Socket F接口(CPU的底部没有传统的针脚,而代之以1207个触点,即并非针脚式而是触点式,通过与对应的Socket F插槽内的1207根触针接触)。包含Opteron 2300、Opteron 8300系列的标准版以及HE版,主频在1.7GHz-2.0GHz,标准版为95瓦,HE的功耗仅68瓦。Opteron 2300包括2350、2347、2347 HE、2346 HE和2344 HE 五款产品;Opteron 8300系列包括8350、8347、8347 HE、8346 HE 四款产品。

 
皓龙 2350
 
巴塞罗那核心

但是,由于巴塞罗核心的缓存中的缓冲器(TLB)出现了问题,导致了皓龙市场的严重损失,这不能说是AMD的悲哀,在紧急处理后的B3版本皓龙处理 器,修正了TLB错误,于2008年的3月开始生产 投放市场,但是受到前期事件的影响,皓龙处理器丢失了服务器芯片市场的半壁江山。这是一个令AMD神伤的产品,呵呵,一家之言。

单路方面,AMD继续延用了Budapest(布达佩斯)的核心,不过由双核的升级到了四核,2×1024K的二级缓存分割成4×512K,然后增 加了2048K的三级缓存,型号也比较少,只有opteron1352、1354、1356,市场也少见,以至于笔者也没有见过这个CPU。

2008年12月,AMD正式发布了代号“上海”的新一代四核心Opteron服务器处理器,型号有同此前的“巴塞罗那”同样基于直连架构原生四核 心设计。生产工艺从65nm SOI改进为45nm SOI沉浸式光刻技术,三级缓存从2MB扩容至6MB,增强在虚拟化、数据库和Java等内存密集型应用的性能。内存方面,抛弃了DDR667而支持 DDR2-800内存,大幅提高存储带宽。真正支持HyperTransport 3.0总线技术,处理器间通信带宽提高到17.6GB/s。AMD-V虚拟化技术改进:增强的快速虚拟化索引,主机与客户机切换速度加快25%,同时可关 闭三级缓存索引,保证数据完整性。上海与巴塞罗那一样继续采用Socket F 1207插槽,因此实现了平台的向下兼容,有利于数据中心的平稳移植和升级。上海核心的皓龙处理器有双路opteron2376 -2384,以及多路的opteeron8378-8384。

 
上海核心照片

根据生产一代,研发一代,计划一代的指导思想,雄心勃勃的AMD计划在2009年下半年会发布代号Istanbul (伊斯坦布尔)的原生六核心处理器,仍基于Socket F平台,支持双路、四路配置,现在使用的服务器平台可以在更新BIOS之后,实现顺利升级。

之后的2010年,AMD计划全新的Maranello(马拉内罗)平台登场,改用新的Socket G34接口,并转向DDR3内存和四通道HyperTransport 3.0总线。该平台的处理器包括六核心SaoPaulo(圣保罗)和十二核心MagnyCours(马尼库尔)两种,均采用45nm工艺生产,集成 6/12MB三级缓存,支持新的硬件温控和功耗管理功能。

AMD重点核心级产品详解

AMD“伊斯坦布尔”(Istanbul)六核心服务器

在2009年的 Computex上,AMD发布了代号“伊斯坦布尔”(Istanbul)的六核心服务器,型号为Opteron 2400/8400系列。

据悉,“伊斯坦布尔”采用直连架构的原生六核心设计,全面适合双路、四路、八路服务器市场,支持AMD-V虚拟化技术和AMD-P电源管理技术套装,继续采用Socket F 1207平台和低价高能效DDR2内存架构,性能每瓦特相比上代四核心“上海”最多提升34%。

“Istanbul ”六核AMD皓龙处理器

AMD公司美国时间2009年6月1日宣布推出世界上首款采用直连架构的六核服务器处理器,面向双路、四路和八路服务器。代号为“Istanbul”的六核AMD皓龙处理器延续了AMD致力于以各种价位和无与伦比的平台灵活性为客户带来卓越价值的承诺。

通过同一个平台,AMD新的六核皓龙处理器能够满足对更多的核心和更高扩展性的需要,而AMD四核皓龙处理器则可以提供经济高效和更节能的解决方 案。Cray、戴尔、惠普、IBM和 Sun等领先的OEM厂商,预计从本月开始提供基于AMD六核皓龙处理器的系统,同时该处理器还得到了主板和基础架构合作伙伴的支持。AMD六核皓龙处理 器的HE、SE和EE版本计划于2009年下半年推出。

AMD六核皓龙处理器充分利用了现有的平台基础架构以及低成本、高能效的DDR-2内存,有助于降低系统的采购成本。

高性能计算、虚拟化和数据库工作负载等将从提升高达60% 的4P STREAM内存带宽中受益匪浅,这归功于超传输总线HT Assist技术,它可以帮助降低处理器到处理器之间的延迟和数据流量。

 
AMD六核“Istanbul”芯片

AMD虚拟化技术(AMD-V)和AMD-P套件电源管理特性广泛应用于各个性能和功耗段,确保客户不会面对性能和功耗的两难选择。

在完全相同的平台上,与前一代四核处理器相比,新款AMD六核皓龙处理器的每瓦性能提高达34%。(AMD 皓龙™处理器2435 型号与AMD 皓龙™处理器2382型号相比,前者的SPECpower_ssj™2008测试成绩为:总分1297 ssj_ops/watt,287W、100% 目标承载时为501,246 ssj_ops;后者的SPECpower_ssj™2008测试成绩为:总分 970 ssj_ops/watt,272W、100% 目标承载时为376,878 ssj_ops)

 
AMD六核“Istanbul”芯片结构

AMD代号为“Maranello”的6000系列平台

AMD代号为“Maranello”的6000系列平台,该平台采用代号为“Magny- Cours”的处理器产品,该处理器是全世界首款8核心和12核心的x86处理器,面向2路以及2路以上市场,能够满足企业和主流计算苛刻的数据密集型工 作负载,并具有先进的虚拟化和能源效率的特点。

 
AMD 6000系列平台

而对于另外的一部分用户,他们更关心的可能是能效和成本的优化,6000高端市场平台显然无法 满足这部分客户的需求,针对这一来用户的产品将是代号“San Marino” 和“Adelaide”的4000系列平台。据Gina解释,4000系列处理器主打市场包含三部分,第一部分是需要低功耗、高密度计算以及高性价比的第 二部分是要求易用性一级扩展性的中小企业;第三部分则面向要求高能效、一致性的企业基础架构市场。在4000平台上,我们将会看到X86架构下首款也是目 前唯一一款单核心功耗小于6瓦的产品。

 
AMD 4000系列平台

首批适用于4000系列平台的4100系列处理器在2010年第二季度上市,其主要针对于单路以及入门级的双路市场,处理器拥有4个或者是6个运算核心。

 
AMD 4000系列平台的高性价比设计

AMD的4000系列平台将会使用新的C32接口,该接口在设计上与现有的Socket F接口拥有同样的1207针脚,只是重新定义了针脚,使得新平台可以支持更高容量和速度的DDR3内存,AMD 4000系列平台支持2条内存通道频率最高支持1333MHz,HT总线的速率会上升到6.4GT/S,该平台规格与2011年将推出的Valencia 实现兼容。

 
AMD 4000系列平台

与4000系列不同,6000系列主打的是高端市场,因此在系统性能上将会有更好的表 现,6000系列列将使用全球首款8核心与12核心的X86服务器用处理器。这一系列产品可以应对苛刻的数据密集型工作负荷,并提供令人难以置信的效率和 线程处理能力。AMD皓龙6000系列可以提供4个内存通道数量,比竞争对手高出33%。

在接口上,6000系列将会使用新的G34系列接口,该接口将会拥有更多的针脚,有传言针脚数为1974个,但AMD官方并未证实。

6000系列产品有全新的能效特性和全新的虚拟化功能,这点在产品发布时会给大家做详细介绍。和4000系列一样,6000系列平台也具有一致性和可兼容性,能兼容AMD在2011年推出的下一代产品。

 
AMD 6000系列平台性能表现

6000系列平台的性能非常不错,其增强的内存架构带来了明显的产品性能优势,与上一代产品相 比其基准带宽提高了2.5倍。这为虚拟化、数据中心和高性能计算带来非常高的性能,由于虚拟化程度上升,AMD皓龙6000系列可以使用更多的虚拟机,借 此使相关应用程序能够获得更好的性能,此外内存带宽和不同功耗产品之间具有一致性,内存带宽不会因功耗降低而受到影响和牺牲。

 
4000系列和6000系列平台间的一致性

AMD在新产品推出时也充分考虑到了OEM合作伙伴的需求,4000系列和6000系列产品还 有很多功能点,可以使产品达到非常好的兼容性。新的平台具有相同的芯片组和南桥芯片,相同的BIOS基础代码和编程接口,相同的驱动程序。对OEM客户来 说,这使得他们的设计和验证支持更加容易,便于客户管理和维护系统。

AMD新的产品布局给人耳目一新的感觉,不过,新的划分方式是否更加科学呢?换句话 说,4000系列平台与6000系列平台由于都涵盖了双路市场会不会发生自相竞争的尴尬呢?对于这样的疑问,Gina显然很有信心,她表示不排除两个平台 会有竞争的情况出现,但二者重叠空间不大,竞争力度不大。但真的不需要有这种担心吗,Atom挤压常规处理器从而造成利润率下降的问题在AMD的竞争对手 Intel身上目前体现无疑,这种有重叠空间的产品划分方式是否科学看来还需要经过市场的检验,在这里,我们先祝AMD好运,毕竟,一个竞争力充分的市场 才能带给用户最大的利益。
AMD“英特拉格斯”(Interlagos)、“巴伦西亚”(Valencia)处理器

推土机架构将在很长时间内成为AMD服务器平台的基石。2011年下半年,AMD会推出“英特 拉格斯”(Interlagos)、“巴伦西亚”(Valencia)处理器,升级新架构的同时继续分别兼容现在的Socket G34/C32封装接口。这时候,处理器、芯片组、显卡还是各自为政的。

大概到2012年(或者更晚一些),AMD会把处理器和芯片组、I/O控制器整合到一起,平台 接口也因此改为新的Socket G42/G44。届时,显卡会针对服务器应用进行优化,处理器架构初期仍是推土机,但稍后会升级到新的“下一代推土机”(Bulldozer NG),或者也可以称之为推土机的2.0版。

再往后,2014-2016年间,最激动人心的事情要发生了:AMD将采用模块化的SoC设计 理念,把处理器、芯片组、I/O控制器、显卡全部融合到一颗芯片之中,从而实现真正的异构计算架构。到那个时候,处理器部分的核心架构首先还是推土机 2.0,但后期会再次升级。当然了,这种巨大的变化必然又会带来新的封装接口。

现在想分析AMD中远期发展的具体细节显然是不现实的,事实上AMD在路线图上也多处含糊其 辞,表明很多地方仍处于初期规划阶段,但毫无疑问的是大方向已经确定,那就是多核心x86处理器、多核心图形芯片、芯片组和控制器的全方位融合,这也顺应 了AMD公司的企业口号“The Future is Fusion”。

 
AMD融合

在日前的一份远景路线图上,AMD展示了处理器、显卡、芯片组完全大融合的构想,并且披露了推土机之后的又一代全新架构,暂且称之为“Bulldozer NG”。

不过这个推土机2.0版并非只是一种幻想,实际研发工作已经悄然开始了。现在就有细心人发现,AMD最近向GNU操作系统补丁集中添加了多种新的扩展,用于所谓的“upcoming bdver2 processors”,显然就是即将推出的推土机2.0版处理器。

根据这一发现,推土机2.0将会支持的新扩展有:

- BMI:Bit Manipulation Instructions,位操作类指令

- TBM:Trailing Bit Manipulation,追踪位操作

- FMA3:three operand FMA [fused multiply-add] instructions,三操作乘加指令

我们知道,推土机将会支持四操作乘加指令的FMA4,实现非破坏性DEST并降低寄存器的压力,今后再增加FMA3应该是为了实现与Intel Sandy Bridge/Ivy Bridge的兼容性,后者都支持FMA3。

FMA4指令可以允许a、b、c、d处于四种不同的寄存器状态,FMA3指令则要求d必须与a、b、c其中之一处于相同的寄存器状态。前者可以提供更好的编程弹性,后者则可以缩短代码长度,硬件支持也稍微简单一些。AMD服务器架构未来的路

2012年首先是Terramar(西班牙加泰罗尼亚的古老F1赛道)、Sepang(马来西 亚雪邦),其中前者隶属于Opteron6000系列,支持单路、双路、四路并行,最多20个核心,支持四通道DDR3、PCI-E3.0,封装接口改用 SocketG2012,平台代号Porto(波尔图);后者隶属于Opteron 4000系列,支持单路、双路并行,最多10个核心,支持三通道DDR3、PCI-E3.0,封装接口改为SocketC2012,平台代号 Luxembourg(卢森堡)。

它们将不再分别兼容现有的Socket G34/C32平台,芯片组也会从南北桥双芯片形式改为单芯片设计。

 
之前的2010-2012年路线图

2013年,Opteron6000、4000系列分别迎来“Dublin”(都柏林)、 “Macau”(澳门),仍是最多20个和10个核心,只是制造工艺均升级为28nm。它们的接口继续分别沿用SocketG2012/C2012,搭配 芯片组也不变,因此保持向下兼容,事实上平台代号都不变。

这也就是说,Dublin、Macau将基本只是新工艺升级版,本身在架构方面不会有多大变化,还是第二代增强版推土机内核。
 

 
最新的2010-2013年路线图