服务器在线11月19日报道:在过去的两年中x86服务器市场的竞争可谓日趋激烈,随着英特尔公司凭借旗下的酷睿2架构的服务器版Woodcrest处理器重新从AMD手中夺回性能的领先地位,继而又借助其四核至强处理器Clovertown(这款处理器是将两个独立的双核心Woodcrest晶片封装在一起而来)巩固了这种市场优势。虽然Woodcrest处理器和Clovertown处理器在处理传统的服务器工作负载方面具有优势,但AMD公司的皓龙(Opteron)处理器仍然是多数对带宽和大量数据集要求严格的高性能计算和科学计算工作负载行业中的选择。
今年初,AMD公司宣布推出其首款四核处理器巴塞罗那。但不幸的是巴塞罗那处理器的频率不像人们期望的那么出色。AMD公司已经达到了他们的目标(如国际固态电路年会"ISSCC"要求的,2.8兆赫兹,120瓦特功耗),或许他们在处理通用服务器工作负载方面性能超越了英特尔公司。不过看起来AMD公司只是在高性能计算领域占据优势,在其它方面还是步英特尔之后。
英特尔公司自然不会对此坐视不理,最近他们公布了旗下45纳米制程的一些通用指标。特别值得一提的是,英特尔采用了高介电常数绝缘膜(high-k)材料取代传统的二氧化硅绝缘层,用防漏电金属代替电极层。这就意味着消除了漏电层也就相应将漏电率降到了最低点(在保持频率常数的前提下)。
英特尔公司的首款45纳米处理器主要面向服务器市场。从很大程度上是因为英特尔在这个市场上最具竞争优势。而英特尔公司在笔记本和桌面系统市场的优势都不够明显。为了减少设计上的风险,Penryn处理器作为45纳米产品线的基础也是从Core微体系架构上衍生而来。与之前的65纳米处理器相比又进了一步。Penryn处理器还做了一些修正。最值得注意的就是采用了更大的6MB L2高速缓冲存储器,在其它方面也有一些改进,诸如更快的分配器,1.6兆赫兹前端总线,最新SSE4.1指令集等。
英特尔公司采用45纳米工艺的服务器产品,四核处理器命名为Harpertown而双核处理器命名为Wolfdale DP。这两款产品都可以兼容上一代处理器,还能在电压调节模块(VRM)支持下进行升级。不过一些主板生产商和原始设备提供商们多采用价格比较便宜的电压调节模块(VRM),而无法向新产品提供升级支持。
虽然Harpertown处理器能兼容上一代系统,英特尔公司为其特别设计了一个新的工作站芯片集。这款新一代双路服务器平台被命名为Stoakley,使用的是Seaburg芯片集(英特尔公司太多的代码真是让人眼花缭乱,让人很难记住!)本文会通过与上一代系统的比较,对新一代的Stoakley平台的性能予以概述。
新一代双路服务器平台Stoakley
Seaburg或5400芯片集是Stoakley平台的核心所在,它主要针对工作站和高性能计算系统设计(虽然我们不得而知为何它不能用于服务器)。象Harpertown处理器一样,Seaburg芯片集也是从上一代Blackford芯片集中发展而来,但是做了一些改进。Seaburg芯片集继承了用于Blackford芯片集中的点对点总线排列技术,运行速度从每秒1.33GT提高到了每秒1.6GT。请求缓存也能更深入的利用多余的带宽,同时支持新的无序处理模块,这个模块能提高处理大量高性能计算工作负载的性能。存储寻址能力和容量也翻了一倍。目前单系统配置提高到32位双列直插内存模组,物理内存达到128GB。下面的图示一即Seaburg的系统框图。
图示一
内存控制器中的探听过滤器"snoop filter"为了获取更佳的性能也进行了扩展。探听过滤器为了适应24GB的双路Harpertown处理器中较大的高速缓冲存储器,也进行了扩充。作为一种特别的缓冲器,探听过滤器Snoop Filter中储存了缓存Tag结构。由于使用了MESI协议,为确保多核平台中缓存的一致性,每一个处理器必须时刻注意另一颗处理器的总线情况,而使用探听过滤器Snoop Filter将有助于减少处理器总线发生数据堵塞情况的发生。
当出现高速缓存未中时,探听过滤器Snoop Filter将增加到发起的CPU总线上。随后,探听过滤器拦截探听,并确定是否必须将探听传递到四核中的另一个总线线段上。如果读取请求同一总线上的另一个处理器得到满足,则取消探听过滤器访问;如果没有得到满足,探听过滤器访问的结果将确定是否进行下一个操作。当然,也有可能在读取请求过程中丢失探听过滤器,此时就直接从内存返回数据,进入下一个循环。
从终端用户透视图上可以看到最显著的变化来自于输入/输出I/O系统。Seaburg芯片集采用两块x86 PCI-Express Gen2显卡,对图形图像处理和视频编辑有较大帮助。上一代工作站芯片集Greencreek还不够完善,只能用于单图形显卡。这些通道可以支持4×8 PCI-E Gen1或者8×4插槽来连接不同种类的存储子系统或者高性能网络,诸如10GB以太网。
系统配置情况
让我们对基于Stoakley服务器平台的超微2U系统和的基于Bensley平台(使用过时的65纳米四核Clovertown处理器)的英特尔系统做一个比较。在一种理想状态下,我们使用相同频率的MPU能更直观的看到Harpertown处理器和Seaburg芯片组的进步,但不幸的是这根本是不可能做到的。仔细的分析和推论或许能弥补频率上的差异。但是却会引发更多不确定的因素。
Stoakley服务器平台采用双独立前端总线,8个双列直插内存模组,16GB内存。但是我们只选取了一半的内存用于测试,这显然无法充分发挥Stoakley服务器平台的优势而使得测试结果显得有失公允。SPECjbb2005也能受益于额外的容量。多数的测试由于每个信道增加了多重双列直插内存模组,也能充分利用额外的带宽。FB-DIMM信道能同时对独立的双列直插内存模组进行读写,因此每个信道使用两组双列直插内存模组就能提升可使用的带宽容量。
下面所有基准性能测试我们都运行了3次,最后结果取3次结果的平均值。初始循环数据通常会弃置不用来保证循环运算的准确性。我们特意扩大了基准测试的数量和范围。在此先特别感谢技术支持部门的斯科特.沃森与我们分享多线程程序MyriMatch和循环运算测试软件Euler3D。全套基准测试的软件包括:
POV-Ray3.7测试版22 (64位)
FlamMap(64位)
Valve VRAD地图生成测试(秒)
Sungard金融风险分析软件(62位)
Euler3D循环运算测试软件
MyriMatch多线程程序
SPECjbb2005 BEA JRockit 6 R27.4(Java服务器商业测算基准)
XMLMark数据结构
这些基准涵盖了多类应用软件领域:有三个主要用于传统的高性能计算领域,两个是JAVA服务器基准,还有两个是内容创建基准。
POV Ray
POV-Ray 3.7测试版作为我们的标准透视图基准已经最新升级到版本22.根据每秒的像素(Pixels/Sec)来反映在基准场景中的性能。
图示二:POV Ray性能
对于POV Ray图形软件来说,Harpertown处理器在单时钟基础上比Clovertown处理器速度提高了大约2.3%。这并不让人惊讶,因为POV Ray图形软件能够对多线程技术提供原生支持。但芯片组额外的带宽和高速缓存对微体系架构的改变没什么帮助。
大体来说,在2.33兆赫兹和3兆赫兹的芯片之间对IPC进行比较并不完全准确。只有在POV Ray性能测试考虑到频率,内核数量等因素才能提供更准确的线性测量。这种比较关系就是有效的。