IT技术的发展着实让人吃惊。1997年,英特尔要实现每秒万亿次(TFlops)的浮点计算能力,必须部署72机柜的服务器,总计用到9298颗当时主流的英特尔处理器。而今天,一颗最新的英特尔至强融核协处理器就能提供每秒万亿次浮点计算的性能。这两者的差别可谓是天壤之别。
11月13日,英特尔在至强融核协处理器的发布会上,英特尔向媒体介绍了至强融核的强大并行处理能力。英特尔(中国)有限公司服务器平台产品经理张振宇表示,至强融核将有助于高性能计算从当前最快的千万亿次浮点计算能力向百亿亿次进发。而在刚刚发布的最新一期TOP500榜单中,位于美国德州高级计算中心(TACC)的“Stampede”,就是采用英特尔至强E5加至强融核的架构,计算速度达到了2.66Pflops,位列本期TOP500的第7名。此外,TOP500新榜单中还有6套采用至强融核协处理器的系统入选,包括该榜单上能效最高的Beacon系统,其能效为每瓦2.44 GFlops(GFlops为每秒十亿次浮点计算)。
英特尔新推出的至强融核协处理器分为两大产品家族,分别是5110系列和3100系列。5110系列主要针对内存带宽和容量密集型工作负载, 3100系列则能计算密集型工作负载的需要。张振宇透露,目前英特尔至强融核协处理器5110P已经开始出货,并将于2013年1月28日以2649美元的建议销售价格正式面市。3100产品家族会在2013 年上半年面市,其建议销售价格将在2000 美元以下。
至强携手融核:HPC独领风骚
英特尔至强融核作为一款协处理器,和至强处理器有着明显的区隔和不同定位。至强作为主流的服务器处理器平台,主要为企业应用、关键业务和技术计算提供强大的处理能力;至强融核则以并行计算能力见长。两者相辅相成,未来在高性能计算领域将独领风骚。
根据最新发布的TOP500,新上榜系统中有91%是基于英特尔处理器构建,并且还新增了7套基于英特尔至强融核协处理器的上榜系统,其中包括:TACC首次部署的 Stampede系统(每秒2.66千万亿次浮点计算,在榜上排名第7)、美国国家航空航天局(NASA)气候模拟中心的Discover系统(每秒417万亿次浮点计算,排名第52)、英特尔公司的Endeavour系统(每秒379万亿次浮点计算,排名第57)、俄罗斯科学院联合超级计算中心的MVS-10P超级计算机(每秒375万亿次浮点计算,排名第58)、美国国家航空航天局(NASA)Ames研究中心的Maia系统(每秒212万亿次浮点计算,排名第117)、南乌拉尔国立大学的SUSU系统(每秒146万亿次浮点计算,排名第170)以及田纳西大学国家计算科学研究所的Beacon系统(每秒110万亿次浮点计算,排名第253),Beacon系统也是本届全球高性能计算机500强(TOP500)排行榜上能效最高的系统,其能效水平为每瓦12.44 GFlops。
通过新入榜的系统不难发现,英特尔至强融核刚问世就表现不俗,已经赢得相当一部分高性能计算用户的青睐,未来这种趋势将愈发明显。因为和用GPU进行加速相比,至强融核在编译和移植等方面完全兼容至强处理器平台,用户甚至不需要对原有应用进行修改或者只要进行极少量的工作就可以将应用迁移到“至强+至强融核”的环境中,而获得的将是性能大幅的提升。
张振宇表示,至强通过与至强融核协处理器搭配,可应付众多“高度并行化”的处理工作,从而帮助高性能计算解决包括基因研究、油气勘探和气候建模在内的广泛的科学和技术领域中的问题。
至强融核的前世今生:8年磨一剑
罗马不是一天建成的,英特尔至强融核也是经过了8年的孕育,终于瓜熟蒂落。
早在2004年,英特尔就开始了众核技术的策略规划;2005年,英特尔又制定了众核研发议程及图形芯片Larrabee的发展计划;2006年,由超过80个项目组成的万亿级计算研究计划开始执行;2007年,英特尔实验室开始研究众核的负载、模拟器和软件;2008年,英特尔建立了通用并行计算研究中心;2009年,英特尔在超算大会上展示了用Larrabee实现的每秒万亿次单精度浮点计算能力;2010年,英特尔开始加快众核技术的研究;2011年,英特尔开始让用户试用众核芯片;2012年上半年,英特尔首个基于至强融核协处理器的集群投入使用,并在当期TOP500榜单上位列第150位,其具备了每秒118万亿次浮点计算的性能。
2012年6月,英特尔宣布未来所有基于英特尔集成众核架构(英特尔MIC架构)的产品将采用全新品牌——英特尔至强融核,中文名称为至强Phi。第一代英特尔至强融核产品家族(代号为“KnightsCorner”的协处理器)将在2012年年底推出,其第一代产品将主要用于高性能计算市场,而未来的英特尔至强融核产品还将满足企业数据中心和工作站的需求。
现在,伴随着5110P的出货,英特尔正在按照集成众核的产品线路图有序地推陈出新。张振宇认为,随着新品的陆续到位,至强融核将受到越来越多用户的认可。英特尔在至强融核的研发过程中充分考虑到了与至强的兼容性和可移植性。至强融核能够充分利用为英特尔架构提供的人们熟知的编程语言、并行模式、技术和开发人员工具,这有助于确保软件公司和企业的IT部门加大对并行代码的利用,且无需为与加速器相关的专有的、针对硬件的特定编程模式重新培训其开发人员。
英特尔还在至强融核发布的当天推出了英特尔Parallel Studio XE和英特尔Cluster Studio XE在内的软件工具,用来帮助科学家和工程师们优化其代码,以便充分利用英特尔至强融核协处理器。这些工具能够通过英特尔至强融核协处理器和英特尔至强处理器E5产品家族共用的编程语言和模型对代码进行优化,从而使应用不但能从英特尔至强融核协处理器的数十个内核中获益,亦可从英特尔至强处理器E5更为高效的多线程资源利用上获得帮助。
双剑合璧:并行计算称王
新发布的至强融核3100系列和5110系列都英特尔最先进的22纳米3-D三栅极晶体管制程工艺。
对于那些希望运行计算密集型工作负载(如生命科学应用和金融模拟)的用户,英特尔至强融核协处理器3100系列将能够为他们提供出色的价值。3100系列将能够提供超过1000 Gigaflops(即每秒1万亿次浮点计算)的双精度浮点计算性能,并支持容量最高达6GB、带宽最高达240GB/秒的内存,以及内存错误校正码(ECC)等一系列可靠性特性。该产品家族工作时的热设计功耗(TDP)范围在 300瓦以内。
至强融核5110系列则能以更低的功耗提供额外的性能。它能够实现1,011 Gigaflops(即每秒1.01万亿次浮点计算)的双精度浮点计算性能。它可支持容量和带宽分别高达8GB和320GB/秒的GDDR5内存。热设计功耗(TDP)为225瓦、可进行被动散热的至强融核5110P具备适用于密集计算环境的能效表现,可用于处理诸如数字内容创建和能源研究等内存密集型工作负载。这款产品已经交付给了一些早期用户,并出现在了最新发布的第40届TOP500排行榜中。
为了让诸如德克萨斯高级计算中心(TACC)等客户早日使用全新的英特尔至强融核协处理器技术,英特尔还提供了两款定制化的产品:英特尔至强融核协处理器SE10X和英特尔至强融核SE10P。两者均可在热设计功耗为300瓦的情况下提供1073 GFlops的双精度浮点计算性能,其余规格则与英特尔至强融核协处理器5110P相似。
目前,有超过50家制造商正在基于英特尔至强融核协处理器设计解决方案,这些制造商包括宏基、Appro、Asus、Bull、Colfax、Cray、戴尔、Eurotech、富士通、日立、惠普、IBM、浪潮、NEC、Quanta、SGI、Supermicro和Tyan。