关注:45纳米四核Harpertown处理器性能预览(3)

XML Mark 1.1

XML Mark 1.1是我们比较熟悉的基准,在过去的服务器性能预览中曾经使用过。此前我们是将9种不同的配置文件混合采用两种分析方法(SAX和DOM)进行测试。但是这次我们通过改变线程的数量(从1线程到8线程)只采用SAX的分析方法来进行基准测试。这种测试方法与我们在别的性能预览中的SAX1子测试大致相同。

XML Mark 1.1基准测试,我们采用的是包含了Harpertown处理器最优化的最新64位BEA JRockit 5.0 R27.4通用版。此次基准在两种不同的配置下运行来反馈工作状态下不同的水平情况。我们将这两个设置取名为"底部(Base)"和"顶部(Peak)",这是来自SPEC CPU基准的两个通用术语。底部配置反映的是调整的最小数量,只设置堆栈的体积;顶部配置代表的是JVM软件标记的最好的可能性。在这两种情况下,硬件预取被激活。两列命令行显示如下:

Base: -Xms3650m -Xmx3650m -Xgc:parallel

Peak: -Xms3650m -Xmx3650m -XXaggressive -XXlazyunlocking -Xlargepages -XXtlasize:min=4k,preferred=1024k -XXcallprofiling -Xgc:parallel

JRockit的最新版如果在4GB下堆栈有限的情况下,可以自动启用32位指示器,因此最大限度的堆栈体积能达到3500MB。

 

图示八:XML Mark 1.1性能

请大家注意,底部得分使用正方形标记,顶部得分使用三角形标记。

说来奇怪,使用Harpertown处理器的IPC数值在XML Mark 1.1基准测试中没有变化。频率差异再次成为问题的关键。不幸的是使用XML Mark 1.1基准测试,我们无法在不同的时钟频率下对两种相同的处理器进行任何比较,以此来帮助我们推断出Harpertown处理器IPC数值的优势所在。

而调整对性能的影响也不大。顶部测试的结论显示Clovertown处理器和Harpertown处理器在所有的工作负载水平上的性能表现都提高了10%以上。10%是个不小的进步,但是仍然比我们预想的要低。典型代表就是JIT编译技术能将性能提高到20-25%,甚至更多。

SPECjbb2005

SPECjbb2005基准测试,我们也采用的是包含了Harpertown处理器最优化的最新64位BEA JRockit 5.0 R27.4通用版。此次基准在两种不同的配置下运行来反馈工作状态下不同的水平情况。我们将这两个设置取名为"底部(Base)"和"顶部(Peak)",这是来自SPEC CPU基准的两个通用术语。底部配置反映的是调整的最小数量,只设置堆栈的体积;顶部配置代表的是JVM软件标记的最好的可能性。在这两种情况下,硬件预取被激活,由于与软件预取发生冲突有可能会降低性能。我们认为这种方法能更准确的体现出实践中的真实情况。一名出色的Java工程师能够对使用那列命令行进行转换做出指导和掌控,不过熟知BIOS(基本输入输出系统)最优化的开发者并不多。这两列命令行显示如下:

Base: -Xms3650 -mx3650

Peak: -Xms3650m -Xmx3650m -Xns3000m -XXaggressive -XXlazyunlocking -Xlargepages -Xgc:genpar -XXtlasize:min=4k,preferred=1024k -XXcallprofiling

JRockit的最新版如果在4GB下堆栈有限的情况下,可以自动启用32位指示器,因此最大限度的堆栈体积能达到3650MB。在任何情况下,我们都只用到一个JVM,因为它最能体现实践中的真实情况。不过多重JVM通常性能会更高,它要求将JVM的每个实例绑定在一起放入一台特殊的处理器或者内存池中–这对于小型数据处理服务器并不适用。

图示九:SPECjbb200性能

请大家注意,底部得分使用正方形标记,顶部得分使用三角形标记。

SPECjbb2005是我们所有用到的基准中最为大家所公认,也是最具商业意义的基准,但是理解起来会比较困难。它不象SPEC CPU,在性能方面编译技术的影响就没有多少争议。举例来说,从2.33兆赫兹的Clovertown处理器到3兆赫兹的Harpertown处理器性能的提高是一样的,都是25%,与处理器的基础配置到较高的JVM的设置变化类似。如果两个变化合二为一,在性能就能获得55%的提升。

在这种情况下,时钟频率的得分就不是太有用了。我们对Harpertown处理器测试的IPC数值看起来要比Clovertown处理器要低5%左右,这很容易让人误解。在Harpertown处理器中更多的高速缓存和更快的总线都能在相同的频率和平均内存延迟衰减中提升IPC数值。

确实存在这样的矛盾,因为Harpertown处理器和Clovertown是在不同频率下运行的。通过对3兆赫兹和2.66兆赫兹Clovertown处理器SPECjbb2005正式数据的对比,我们会发现Clovertown处理器时钟频率提升12%,性能却只增加了5%,从而IPC数值减少了7%来弥补这种差距。我们推算如果3兆赫兹的Clovertown处理器比2.33兆赫兹的Clovertown处理器性能提升12%,那么相应的时钟频率就要提高28%。这就意味着当时钟频率从2.33兆赫兹提高到3兆赫兹时,Clovertown处理器的IPC是指就得降低14%左右。综合所有的信息,我们可以发现3兆赫兹的Harpertown处理器的IPC数值确实比3兆赫兹的Clovertown处理器高出了10%到15%左右。

结论

使用Seaburg芯片集的Harpertown处理器与上一代65纳米处理器相比确实有令人瞩目的改进。英特尔公司的设计团队还在对这个体系架构进行更加全面的评估,大家会看到时钟频率的进步和IPC数值的提升(5%到20%之间)。更快的前端总线也会对处理大量的高性能计算工作负载方面发挥更大作用–而这个领域在过去的很多年中对于英特尔公司都是相对薄弱的。

在本轮测试中我们没有对Harpertown处理器的能耗进行测算,不过来自其他站点的测试结果已经足够让人侧目了。一台满负荷运行的3兆赫兹Harpertown处理器消耗的能量与2.33兆赫兹的Clovertown处理器大致相同,但性能却显著提高。在待机状态下的表现则更为出色,3兆赫兹的Harpertown处理器与低能耗的2兆赫兹Clovertown处理器相比,能耗类似。这还不足以弥补FB-DIMM方面的能耗,但是却对从功效方面缩小与AMD公司的DDR2系统的差距有所帮助。

Stoakley服务器平台在工作站和高性能计算方面也有许多关键性的改进,诸如双重图形显卡,10GB以太网等。再结合功耗和性能方面的进步,看起来英特尔公司可以在工作站和高性能计算市场(曾经是AMD公司的优势阵地)上充满自信的阔步前进了。在服务器领域,英特尔公司的Harpertown处理器性能也领先于AMD公司的巴塞罗那处理器。当然,以上的所有分析只是Harpertown处理器的一个预览。我们拭目以待几天后正式数据的出台。

关注:45纳米四核Harpertown处理器性能预览(1)

关注:45纳米四核Harpertown处理器性能预览(2)