英特尔至强融核:启迪业界的众核理念
DOIT原创 崔昊 发表于:12年11月27日 19:00 [原创] DOIT.com.cn
DOSERV服务器在线 11月27日原创报道: 2008年6月,超级计算机Roadrunner达成了惊人的1 PetaFLOP计算能力,这台部署在美国洛斯阿拉莫斯国家实验室的超级计算机,在每秒钟能够处理一千万亿次计算,比之前全球最快的一台IBM蓝色基因超级计算机快乐接近一倍。
当Roadrunner带领我们跨过千万亿次计算能力的时候,业界早已经将眼光瞄向了更高性能的计算领域,以英特尔公司为代表的高性能计算核心处理器厂商们认为,ExaScale会在2020年前到来,这也就意味着,在十年左右的时间内,人类将会把最高性能的超级计算机的计算性能提高整整十倍,达到百亿亿级计算的水平。
而这还不是这场“超速”运动的全部,英特尔公司曾经在公开场合表示,再过十年,也就是到2030年,人类有可能借助新的计算技术——众核计算——再把全球高性能计算系统的计算水平提高一个数量级,达到1ZFlops,也就是说:“每秒钟十万亿亿次浮点计算”。
英特尔公司甚至为这一进程制定了详细的时间表,在2011年国际超级计算大会(ISC)上,英特尔公司公开了自己的预测:2013年的时候全球最快的100台超级计算机将会使用100万颗处理器,2015年再翻一番,2020年左右达到800万颗;排名第一的超级计算机的性能有望在2015年达到100PFlops(十亿亿次浮点计算),2018年最终突破1EFlops大关,2020年再翻两番达到4EFlops,也就是每秒钟能够完成四百亿亿次浮点计算。
或许在很多人看来,英特尔所做出的预测太过大胆,虽然微处理器的性能一直遵循着摩尔定律在不断发展,但是在不到十年的时间里,把高性能计算的性能提高一个数量级,曾经在很多人看来是“不可实现”甚至是“不科学的”——这其中最主要的原因在很大程度上也是因为摩尔定律:x86处理器即使遵循摩尔定律的增长速度,也难以在不到十年的时间内构建出ExaScale系统,达到令人吃惊的百亿亿级计算的水平。
当然,这其中的原因不能完全归结于x86处理器性能无法呈现爆发式增长,很大程度上也来自于我们对能耗、处理器间通信以及并行计算能力方面的限制。简单说来,我们确实可以使用堆砌处理器的方式来提高系统的整体性能(业界当然也确实这么做过),但其功耗基本上是难以接受的;另一方面,处理器间通信的问题将会让这一堆砌出来的系统变得臃肿和低效率,其性能利用率会非常之低;第三,无法实现高度并行计算的系统,即使通过处理器堆砌出来,也只是“理论峰值”,而无法应用到真实环境中去——对高性能计算系统来说,只有一个真正可用的系统才是有实际意义的,否则就只是纸糊的四架马车而已。
因此,业界就开始寻找新的方式方法来达到ExaScale级别的计算能力,而Roadrunner就是我们突破性能极限的一个开路先锋,其之所以能够打破1PetaFLOP的计算能力,很大程度上是因为这是一台混合计算设备,它通过采用不同类型的处理引擎极大的提高了该系统的峰值性能。由此开来,混合计算——这一能够极速提高高性能计算系统性能的——系统架构设计方法被广泛采用,如今几年过去再看TOP500榜单,混合计算已经蔚然成风。
但混合计算也并非不存在问题,首当其冲的问题就是编程上的问题,这也是为什么早期的GPGPU(以及GPU)+x86架构的混合计算高性能计算机的效率都不是很高的原因,同时也是为什么混合计算GPGPU(以及GPU)供应商都在类似CUDA编程上投入极大,以帮助用户解决编程问题。
因此,英特尔在几年以前开始计划自己的众核计算架构产品,而藉由其它一些研究方向上的积累,英特尔在MIC众核架构上的发展速度相对来说处于比较快的速度上,2011年在DGEMM 进行的协处理器现场演示中,英特尔进行了使用单颗“ Knights Corner”协处理器提供超过 1 TeraFLOPs(每秒 1 万亿次浮点计算)双精度实际性能的展示。
而在今年的国际超级计算大会上,英特尔使用行业基准测试工具Linpack (Rmax) 1展示了同样超过 1 TeraFLOPs 的卓越性能。相比之下,在 1997 年,ASCII RED高性能计算机采用超过9000 颗英特尔奔腾处理器才突破 了1 TeraFLOPs 性能大关(那时候甚至还没有至强处理器)。
今年6月,英特尔不仅进一步公开了至强融核(Xeon Phi)的产品细节、品牌释义,也在6月份的国际超级计算大会上,向业界透露首个搭配采用英特尔至强处理器 E5 家族和英特尔至强融核协处理器的千万亿级(可实现每秒千万亿次浮点计算能力)的高性能计算机将于 2013 年年初推出,并将命名为“Stampede”(与戴尔合作,部署在德州高级计算中心(TACC))。
与此同时,英特尔也毫不掩饰其对第一代至强融核产品“广泛的应用范围所表示出的兴奋”,在大会上,英特尔方面宣布,虽然第一代至强融核主要用于高性能计算(HPC)市场,但是未来还将以至强融核产品家族满足企业数据中心、高性能工作站的高性能混合计算需求——当然,至强+至强融核(Xeon+Xeon Phi)的混合计算架构,目的将主要是为“高度并行的工作负载带来(属于英特尔的)全新性能”。
英特尔Many-core战略开始于2004年,历经多代原型设计,其中不少都是颇具意义的里程碑。
随着今年11月12日英特尔将正式向业界宣布第一代至强融核产品家族的首款产品,Xeon Phi 5110P,DOIT记者也终于能够开始公开在今年10月中旬参加的有关至强融核媒体预览活动上所听到、看到、收集到的各种信息,而这些丰富的信息,相信会对更进一步了解英特尔至强融核有一定的帮助。
编者注:就在此文章刚刚动笔时,2012年下半年的全球高性能计算TOP500排行榜刚刚出炉,美国能源部下属橡树岭国家实验室(Oak Ridge National Laboratory)的新一代超级计算机泰坦(Titan)拔得头筹,而曾经的中国骄傲——中国天河1号A——则滑落到第八名。
由于提前测试和相关合作等原因,至强融核(Xeon Phi)在本届榜单中已经有所应用,共有七套使用英特尔至强融核(Xeon Phi)的高性能计算系统,其中Stampede系统已经发布其测试成绩,这一采用英特尔至强E5-2680+至强融核(Xeon Phi)的混合计算系统,位列第七,它使用戴尔PowerEdge C8220服务器。