几轮PK帮你优选“真四路”!

本文讨论的是如何优选最适合的四路服务器平台

——基于Intel Xeon E7-4800/8800系列

和Xeon E5-4600系列。

严格地说,

它们应该属于MP(多路,四插槽及以上)产品,

其中E7-8800不止支持四路服务器,

还可以用于8插槽或者更大规模。

本文只讨论主流的4插槽,

要知道八路服务器的价格比四路翻了两三倍,

性能却未必有线性增长一倍。

对于E5和E7的定位区别,我想不少朋友已经不陌生了,下面我先简单总结一下。

image

按照以往的习惯,Intel Xeon E7平台及其之前一代的Xeon 7500系列都是针对关键业务服务器,定位于U2L(UNIX to Linux)一类的需求。其特点是从Itanium(安腾)小型机平台移植过来一系列R.A.S.(可靠性、可用性和可服务性)特性,按照x86架构中的最高标准来设计。这些年来小型机市场的不断萎缩,可以说也是拜Xeon E7的不断发展壮大所赐。

相比之下,Xeon E5-4600系列则定位于高密度高性价比四路服务器。延续了E5处理器平台的两个QPI架构,相比E5-2600系列能够支持多一倍的CPU和内存。其特点是低能耗、低延迟的内存访问,很适合高密度的部署。

至于具体行业应用,我给个不见得覆盖全的评价:Xeon E5和E7两个四路服务器平台,性能方面并无绝对优劣,不过传统行业的关键业务和数据中心的核心节点,特别是替代小型机时采用Xeon E7平台较多。而互联网、电商等新型行业和对性价比机架利用率要求较高的企业比较喜欢Xeon E5-4600,因为他们在能耗和系统整体的拥有成本比较看重,对单一设备可靠性和扩展能力的需求相对低些,所以青睐性价比较高还可节省机架空间的四路E5平台。还有一种,就是像SAP HANA这样的内存计算应用,Xeon E7的内存容量支持要优于E5。

第一轮PK

四路Xeon E7、E5价格,您想到了吗?

2

我们知道,目前最新一代的Xeon E5/E7处理器是v4,上图引用的E7 v3正好也能包含我想要讨论的几个要点。

首先是特性,这方面E7更新的同时E5通常也会有,所以被排除了。性能的情况有些不同,因为我们需要从单一CPU本身的性能和系统性能两个角度来看,还会受到一些外部规格影响。内存容量也是如此,因为市场上有不少服务器都没有按照Intel推荐的最大规格来设计。

可靠性方面,Xeon E7平台上的Intel Run Sure Technology引入了eMCA GEN 1、MCA RECOVERY EXECUTION PATH、MCA IO、PCIe LIVE ERROR RECOVERY这些新技术,先进的RAS 特性已经达到70 多个。总之就是从内存运行、PCIe、QPI互连等方面减少出错和提高诊断能力。而我们也知道,硬件可靠性除了CPU、芯片组这些核心技术之外,还与服务器系统设计和主板等方面的用料做工密不可分。这就是以往各厂商普遍把Xeon E7按最高标准做成旗舰平台的原因。

3

Intel Xeon Processor E7 v4产品家族

我从Intel网站截这2个图(2016年11月8日),是为了从宏观上对比一下Xeon E7和E5-4600系列的规格和价格水平。上面选了2个代表型号——指导价最高也是核心数最多的E7-8890 v4(24核),2.2GHz,60MB L3 Cache;以及最便宜的E7-4809 v4(8核),2.1GHz,20MB三级缓存。

4

Intel Xeon Processor E5-4600 v4产品家族

我们看到,在这个表格中顶级的Xeon E5-4669 v4具备22个核心,2.2GHz和55MB L3 Cache,规格方面与E7-8890 v4非常接近,价格也相当接近。而最便宜的Xeon E5-4610 v4具备10个核心,1.8GHz和25MB L3 Cache,加上比它高一档的Xeon E5-4620 v4,规格和价格也与低端Xeon E7处于同一水平(Intel公布的实际性能也是相当,甚至E5平台还有少许优势)。

这个比较能说明什么呢?既然E5和E7本身的定位不同、且规格设计以及性能方面旗鼓相当,Intel不见得把Xeon E7 CPU卖得比E5-4600贵,更多的价值还要针对不同需求通过服务器的设计最大化。

第二轮PK

内存控制器设计和QPI差异

5

四路Intel Xeon E7内存、QPI连接示意图

由于如今的CPU早已集成了内存控制器,对内存的支持程度(特别是DIMM插槽)每家服务器厂商在设计时就存在固定的上限。目前新一代的Xeon E7每颗支持连接4个SMI内存缓冲芯片,每个SMI提供2个内存通道,每个通道支持3根内存条一共6个DIMM插槽。

这样一颗E7 CPU就具备8个内存通道,24 DIMM插槽,这也相当于两路的Xeon E5-2600系列服务器的最大支持能力。而4颗Xeon E7总计96个内存槽,如果插满64GB内存已经达到单机6TB的容量,甚至最新的单条128GB DDR 4出现后内存扩展能力更加惊人。

CPU整合内存控制器的设计好处不少,但有一点需要注意的就是四路服务器的架构实际是一个NUMA架构,CPU访问不同位置的内存时并非对称的。每颗CPU都是访问自己控制的内存时性能最好,如果跨CPU访问就要通过QPI。上图中的蓝色连线表示CPU之间的QPI互连。每颗Xeon E7对外提供3条QPI,到另外3颗CPU都只需要“1跳”,算是延迟最低的设计了。

6

Dell PowerEdge R930内存扩展板

上图以支持Xeon E7的Dell R930服务器内存板举例说明。它的设计相当紧凑,2颗SMI芯片放在了PCB的背面(每个Xeon E7 CPU对应2块内存板),通过热管和整个金属底板辅助散热。

在这张照片里,12个DIMM槽中安装了4条内存,每通道剩余的2个插槽也固定了dummy以保证散热气流等。

7

Dell PowerEdge R910内存扩展板

对比一下早年的R910服务器,虽然前面一张照片的质量有限,但内行朋友们应该不难看出R930内存板在密度设计和连接器用料上的改进。

8

四路Intel Xeon E5-4600内存、QPI连接示意图

如上图,Xeon E5-4600与E7的区别很容易看出来。首先,E5-4600 CPU的内存控制器没有设计SMI,就是每CPU 4通道最多12个插槽,整体系统内存支持只有Xeon E7的一半。当然,内存访问无需通过SMI进行,CPU访问其直接连接的内存时延迟也会降低。

此外,每颗Xeon E5提供的QPI数量也减少了一条,用于四路平台时通常是按照上面这种连接,包括内存访问在内的CPU插槽间通信效率不如Xeon E7。比如位于对角上的CPU互相访问就需要“2跳”,延时因此而上升。

第三轮PK

Xeon E7“省钱”大法

省钱大法1——内存支持砍半

目前,我们发现市场上出现一些“缩水”设计的Xeon E7服务器,可能是为了降低成本增强竞争力吧。那么这些廉价产品对用户会有什么影响吗?

比如下图是某厂商的E7平台四路服务器架构:

9

这种架构简化了:每颗CPU只配备2颗SMI内存缓冲芯片,这样就把内存支持数量/容量和带宽性能都降低了一半。好处是可以降低成本,内存条可以直接插服务器主板上而不再需要内存板了。

不过问题也来了,这种配置下内存容量的支持就与Xeon E5-4600没有区别,而性能可能还会差一些,虽然都是每CPU 4通道。要知道当初引入SMI提高内存数量也不是没有代价的——数据路径中多一颗buffer芯片就会增加一点延时。

▍省钱大法2——QPI还能少连一条?

对于上述Xeon E7平台,除了标称那些R.A.S.特性之外,还有一点E7重要的特征:3条QPI。然而,经过业内技术专家分析,Xeon E7服务器还有更进一步的“缩水”空间,比如下图的某厂商E7平台四路服务器设计架构:

10

在看到机器之前,我们也没想到还能这样做。有一款服务器在上述简化基础上再补上2刀,首先每个内存通道只放2个DIMM插槽,这样一颗CPU只支持8条内存,还不如四路Xeon E5-4600。

更进一步的是,该平台每颗Xeon E7 CPU提供的3条QPI连接有可能只使用了2条,如此拓扑方式就降低到Xeon E5-4600的水平了。在配置同级别CPU的情况下,可以预见这种架构的性能是无法与E5-4600架构相比的。如果是这样,如果是这样,选择一个标准E5-4600平台的四路服务器可能在性价比上比选这种缩水的E7平台更好。

至于设计上的考虑,我只能理解是为了降低主板PCB布线难度和缩小面积以便最大程度降低成本。问题是,缩水到该程度的Xeon E7,其真实可靠性表现还会优于Xeon E5吗?

11

与普遍采用4U机箱的Xeon E7服务器相比,四路Xeon E5-4600可以轻松做到2U机架式的高度,上图中的Dell PowerEdge R830就是一款中规中矩(没有缩水)的产品。

换个思路,我觉得在招标条款中限定服务器内存槽数量等参数,有更多的积极意义了。即使用户不需要用到满配的内存容量,有些情况下也可以避免买到减配、性能等方面打折扣的产品。

第四轮PK

同配置性能还要看优化

最后,我再简单列出一些性能对比数字,供大家参考。

12

上表比较了几款规格接近的Xeon E7和E5-4600系列CPU,运行SPEC CPU2006整数和浮点基准测试的成绩。我们看到在多线程测试中,1.8GHz 10核的E5-4610 v4比2.1GHz 8核的E7-4809 v4表现要好;另外在同样10核的对比中,2.1GHz的E5-4620 v4也比2.0GHz的E7-4820 v4领先不少。

这部分的结论是,在忽略内存容量、CPU之间通信效率的情况下,E5本身的计算效率不比E7差,甚至还有稍许优势。

那么如果不是简单地看系统的浮点运算和整数运算性能,而是综合地看CPU、内存、IO联动的情况下的性能表现呢?一个典型的场景是ERP。

13

这个表格中的测试数据从SAP网站摘录,对比了SAP SD Standard Application Benchmark的结果,两层Internet配置(简称SD2)。该测试衡量的是ERP软件的处理性能,支持多种操作系统和后端关系型数据库,并不限于SAP ASE,其得分“SAPS”越大越好。

先看四路服务器。同样配置4颗Xeon E7-8890 v4 CPU的三款机器中,Dell PowerEdge R930得分最高,另外两款分别落后2%和4%。我们看到使用E5-4669 v4 CPU的Dell R830只比最接近的4路E7服务器(某国际厂商旗舰机型)落后0.8%。而我们在本文开头曾经介绍过,这两种CPU相差2个核心。

接下来看Xeon E5 v4双路服务器的对比。在同样使用E5-2699 v4 CPU的情况下,Dell R730仍然领先,另外两款分别落后5.6%和6.3%。这里我们也看出该测试对内存容量并不敏感,双路平台配置256GB还是512GB基本没有影响。

之后是上一代Xeon E5 v3双路服务器的对比。在同样使用E5-2699 v3 CPU的情况下,另外三款机型分别落后Dell R730 2.5%、2.8%和9.7%。

结语

如何优选您最适合的四路服务器平台,除了取决于CPU等规格之外,还要看服务器系统整体设计和调优水平。物有所值不仅仅在于“价格的优化” ,也许更需要重视“价值的最大化”。