从TOP500看英特尔至强E5的高性能计算表现

代表全球最快计算机排行的第39届全球高性能TOP500日前公布, IBM的“红杉”以16.32 PFLOP的峰值运算能力折桂。不过,本届榜单一个令人称奇的现象就是,仅仅上市才3个月的英特尔至强E5平台,在本届TOP500中已有多达45套系统入榜,其中包括3套拥有每秒千万亿次浮点计算能力的系统,其中的2套还挤进了前十名。

至强E5双雄进前十

位于德国莱布尼茨超级计算中心(LRZ)的“SuperMUC”,是目前基于至强E5最快的超级计算机,它在本届TOP500中排名第四,达到了每秒2900万亿次(2.9PFLOP)浮点计算的的计算能力,是当前欧洲计算能力最强的高性能计算机。

SuperMUC采用了Xeon E5-2680 8C处理器,主频为2.7GHz,共计147456个内核,整体功耗达到了3422.67kW,网络是基于Infiniband FDR,操作系统采用了Linux系统。

位于德国莱布尼茨超级计算中心(LRZ)的“SuperMUC”

法国的Curie thin nodes以1.36PFLOP的运算能力位列TOP500的第9名,这同样是一台基于至强E5的超级计算机。和SuperMUC一样,它也是采用了Xeon E5-2680 8C处理器,主频为2.7GHz,共计77184个内核。Curie thin nodes的内存为308736GB,整体功耗为2251kW,采用了Infiniband QDR高速互联网络。

SuperMUC和Curie thin nodes都采用Xeon E5-2680作为节点计算平台,很难说是巧合。因为在首批发布的Xeon E5-2600处理器家族中,Xeon E5-2680属于其中的高规格产品,它为8核心16线程结构,三级缓存为20M,QPI速度为8.0GT/s,功耗是130W。从整体上看,Xeon E5-2680是作为节点机较为合理的计算平台选择。

而事实上,从Nahalem架构的至强5500到Sandy Bridge架构的至强E5,至强处理器在高性能计算能力方面获得了不断的加强。新一代至强处理器已经成为了TOP500超级计算机中的主流选择。因为近年来每年2次的TOP500榜单中,基于英特尔至强处理器的系统均超过了70%。

本届TOP500榜单中,共有372套系统采用了英特尔处理器,这个比例超过了74%。而即使是新入榜的系统,采用英特尔处理器的系统占据了超过78%的份额。这意味着未来英特尔在TOP500中的份额还会有所提升。

新一代至强发力高性能计算

英特尔对于高性能计算的全力支持,可谓是源远流长。以Nahalem架构的至强5500为标志,英特尔至强处理器进入了全新的时代。新架构对内存带宽的大幅增加,快速通道互联技术、智能加速技术以及英特尔超线程技术等的采用,使得至强5500相比于上一代产品,在制造、建模、地震模型等方面可以获得超过3倍以上的性能提升。

基于32纳米工艺制程的至强5600处理器,除了性能比上一代的至强5500提升60%左右为,更是在绿色节能方面颇有建树,为降低高性能计算机的整体功耗立下了汗马功劳。

第39届TOP500榜单前十名超级计算机

在自适应能效方面,至强5600主要在4个方面进行了改进:包括CPU功耗更低,每瓦特性能更高,六核版本至强5600的最低功耗为60W,四核版本至强5600的最低功耗只有40W;增强了智能节能技术,可以调节六个内核的能耗状态,性能功耗比更接近理想的线性状态;处理器内核的能耗管理算法进行了更新,可以让Turbo Boost睿频更高效,同时对内存的能耗管理做到更精细化。此外,至强5600所集成的内存控制器提供了对1.35v低电压DDR3内存的支持,而标准的DDR3电压为1.5v。支持低电压内存的实际效果是在不牺牲性能的前提下可以降低20%的热量。

除了不断提供更高性能更低功耗的处理器给高性能计算用户外,值得一提的是,英特尔早就提出了“Cluster Ready”计划,对许多硬件厂商和软件厂商的产品进行兼容性认证,让用户在搭建集群方面不用在选型方面费心思。英特尔“Cluster Ready”可以帮助用户在采购和使用新平台时更加简单——选购经过Intel Cluster Ready 认证的应用软件和集群系统,可以确保硬件平台和软件应用之间的互操作性,获得性能提升和稳定可靠的平台。

至强E5为高性能而生

2012年3月,英特尔按照“钟摆”理论,推出了全新的基于Sandy Bridge架构的至强E5-2600 处理器。新架构的采用使得至强E5仿佛是为高性能计算而生,它在众多方面的特殊设计和优异表现,使得很多用户立刻将高性能计算平台的选择转向了至强E5,这也使得其上市仅3个月就有45套系统冲进了第39届TOP500排行榜。

首先,至强E5具有8个核心,相比上一代的至强5600多出两个内核,具备20MB L3缓存,平均每核心2.5MB,这比上一代的每核心2MB要多25%,核心和缓存的增强对计算能力的提升明显。因而至强E5在性能上比上一代的至强5600有80%的性能提升。

其次,至强E5在带宽方面采用了环形链路总线,提升了带宽降低了延迟。在QPI总线上,至强E5具备两条最高8GT/s的QPI,相比至强5600家族每条链接带宽增加了25%;在内存支持上,至强E5具有四个内存通道,内存规格支持也提升到了DDR3-1600,而至强5600最高支持DDR3-1333。从这些规格来看,E5在数据带宽上要明显领先于至强5600,更加适合HPC苛求高带宽的应用。

第三,至强E5还引入了专门针对HPC应用的AVX高级向量扩展指令集,来加强浮点运算性能。AVX技术是加大计算密度的起点,AVX指令集将现存的浮点向量指令从128位扩展到256位,这种改进可以让每核每时钟浮点运算峰值翻倍。

此外,英特尔还在5月推出了至强E5-4600处理器,这是针对紧凑型4路服务器的新平台。至强E5-4600能在单个系统中最多可提供32个内核和48个DIMM,适用于诸如科学研究和金融服务等各种广泛的技术计算应用,适合做大规模集群的“胖”节点使用。

当前,云计算正快马加鞭地走进人们的工作和生活,高性能计算也因此被赋予了新的使命。随着应用的日益丰富和海量数据处理需求的增加,高性能计算已经从原有的科研、气象、工程、开发等领域,逐渐向更为广阔的商业计算和信息化服务扩展。英特尔至强E5应需而生,其独特的创新设计,已日渐被高性能计算用户所认可。相信,在下一届全球TOP500中,一定会有更多的至强E5系统上榜。