性能跃升:至强融核展现实力

DOIT原创 崔昊 发表于:12年11月27日 19:00 [原创] DOIT.com.cn

  • 分享:
[导读]无论如何,至强融核的出现已经开始改变高性能计算市场,提供给了用户更多的选择。英特尔的理念是值得整个市场关注的,那就是“以可控的功耗、可控的成本提供更高的性能,同时通过生态环境保证最佳的体验。”

性能跃升:至强融核展现实力

上面我们已经说到了英特尔“万亿次计算机计划”的几项重要宗旨,接下来,我们自然会在至强融核(Xeon Phi,为简单起见,下面只称至强融核)上面看到这一项目计划所产生的影响,以及至强融核是如何从自身的特性上贯彻英特尔“万亿次计算机计划”的。

谈到性能和功耗比,英特尔至强处理器作为“高性能计算TOP500排行榜”上位列第一的处理器选择,基本上每一代产品都会带来极高的性能提升和功耗降低。总的来说,我们会看到在同等对应的至强处理器每代更新上,会看到1.3-2.1倍不等的性能提升,而同时其功耗却能够更进一步的得到降低,可以说,至强E5本身已经是不错的高性能计算处理器。

但至强+至强融核的架构显然有将这一优势更进一步的可能性,我们都已经见识到了协处理器在提升性能并保证功耗水平方面的巨大作用,尤其是对于越来越多的并行编程、并行计算来说,处理器+协处理器的方式显然会更有效率,所以,至强融核所带来的性能提升和功耗降低都将是十分明显的。

首先,我们来看看至强融核两个主要产品5110P和3100系列的性能表现。根据英特尔方面的数据,5110P能够提供1011 Gigaflops(即每秒1万亿次浮点计算)的双精度浮点计算性能,3100系列则能够肯定提供“超过1TeraFlops”的性能表现,而这两个皆为60核心的协处理器的性能水平,已经达到了上文所谈到的2007年英特尔CTO贾斯汀所展示的80核处理器的性能,当时贾斯汀谈到其能够实现1TeraFlops的性能,而当时NVIDIA也展示了协处理器卡G80,其性能大约为520GFlops,如今的至强融核是这块卡的两倍。

在串行、并行的不同条件下,至强融核比至强运行在并行编程下还是有2.3x的优势

在并行编程的条件下,Joe Curley展示了至强融核的并行计算能力。在资料中,串行代码通过英特尔至强处理器的处理时间为67.097秒,而通过代码的并行化,至强处理器能够获得145倍的提升,仅需要0.46秒去完成并行代码的工作。但如果将并行代码运行在至强融核上,其结果仅为0.197秒,相比并行化处理器的至强处理器还要高出2.3倍。(后面会看到,这是一个SAXPY(Scalar Alpha X Plus Y)的例子)

显然,60个超过1GHz性能的核心所能够提供的并行计算效率是有较大提高的。至强处理器常见的六核心、八核心,核心数量差距最大甚至只有至强融核的十分之一,虽然其核心的频率超过2GHz是至强融核的一倍多,但是如果能够将那些更注重核间通信、低延迟以及大量、重复简单指令处理任务交给至强融核这样的协处理器,其多核高并发的优势就能够显示出来——对于用户来说,在不断更新换代的至强处理器之外,再针对并行模型获得2-3倍的性能提升,是一件非常值得的事情,至少不需要去堆叠更多的至强处理器。

这就像在麦当劳排队,至强处理器作为“星级服务员”能够提供最佳的服务,适应各种不同顾客的需要,但是往往很多早餐的顾客只是为了点“6元早餐”或是一杯咖啡,此类的需求依靠普通的实习生就可以得到满足:星级服务员+熟练实习生的组合能够达到麦当劳餐厅的最少顾客等待,而不必把所有任务都交给星级服务员去做。

从技术上来看,至强处理器被设计用来应对更为复杂多变的负载,其中包括许多计算以外的考虑,比如设计预取和猜测执行等提高指令的执行效率,但这些逻辑组成并非为了简单的双精度浮点运算——也就是简单的派发“6元早餐”,而众核的至强融核核之间的核心带宽更高、延迟低,适合处理那些互相逻辑关联性不强的简单数学计算。

比如说,在《众核体系结构下单核的设计与优化》这篇论文中,作者就提到,像是基因序列对比就需要大量的数据对比,对于处理系统来说,片上可用的处理器核心数量越多,对提高此类任务的性能就越发明显。

在不同的应用环境下,至强融核还是有一定优势的

在展示的资料中我们还能够看到,至强融核对至强E5-2600系列处理器在SGEMM、DGEMM、SMP Linpack和STREAM Triad上2.9倍、2.8倍、2.6倍和2.2倍的性能提升,从性能上来看,至强融核在并行计算上所带来的性能提升是非常显著的,并且用户能够从中受益。

但我们也需要指出,所有这些性能的提升,都是在“并行编程”的前提下,也就是说,在大量应用程序仍然是串行模型的前提下,至强融核是无法发挥其最大的功效的,而至强处理器作为多核处理器,其同样会受益于多核编程,比如说在上面展示的SAXPY例子中,细心的人就会发现,至强E5通过并行化代码获得了145倍的性能提升,在并行的前提下,至强融核的性能只比至强E5提高了2.3倍。

这也就说明,并行化模型并非只会让至强融核受益,同样也会让英特尔至强E5处理器受益,一旦程序进行并行化编译,至强+至强融核能够同时获得极高的性能提升,这也就让用户通过使用至强融核更进一步的获得了性能的提升。

至强融核已经获得大量OEM的支持,其中也包括国内的曙光、大洋、浪潮、天地超云等,从这个名单上看,英特尔已经将亦庄云基地的天地超云作为不错的合作伙伴。

[责任编辑:崔昊]
Niky
戴尔公司与央视-索福瑞媒介研究有限公司(CSM)成功合作,通过完整的模块化软件定义网络(SDN)解决方案,实现了私有云软件定义网络(SDN)的商业应用。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.