英特尔至强融核：启迪业界的众核理念

DOIT原创崔昊发表于：12年11月27日 19:00 [原创] DOIT.com.cn

分享：

[导读]无论如何，至强融核的出现已经开始改变高性能计算市场，提供给了用户更多的选择。英特尔的理念是值得整个市场关注的，那就是“以可控的功耗、可控的成本提供更高的性能，同时通过生态环境保证最佳的体验。”

DOSERV服务器在线 11月27日原创报道： 2008年6月，超级计算机Roadrunner达成了惊人的1 PetaFLOP计算能力，这台部署在美国洛斯阿拉莫斯国家实验室的超级计算机，在每秒钟能够处理一千万亿次计算，比之前全球最快的一台IBM蓝色基因超级计算机快乐接近一倍。

当Roadrunner带领我们跨过千万亿次计算能力的时候，业界早已经将眼光瞄向了更高性能的计算领域，以英特尔公司为代表的高性能计算核心处理器厂商们认为，ExaScale会在2020年前到来，这也就意味着，在十年左右的时间内，人类将会把最高性能的超级计算机的计算性能提高整整十倍，达到百亿亿级计算的水平。

而这还不是这场“超速”运动的全部，英特尔公司曾经在公开场合表示，再过十年，也就是到2030年，人类有可能借助新的计算技术——众核计算——再把全球高性能计算系统的计算水平提高一个数量级，达到1ZFlops，也就是说：“每秒钟十万亿亿次浮点计算”。

英特尔公司甚至为这一进程制定了详细的时间表，在2011年国际超级计算大会(ISC)上，英特尔公司公开了自己的预测：2013年的时候全球最快的100台超级计算机将会使用100万颗处理器，2015年再翻一番，2020年左右达到800万颗;排名第一的超级计算机的性能有望在2015年达到100PFlops(十亿亿次浮点计算)，2018年最终突破1EFlops大关，2020年再翻两番达到4EFlops，也就是每秒钟能够完成四百亿亿次浮点计算。

或许在很多人看来，英特尔所做出的预测太过大胆，虽然微处理器的性能一直遵循着摩尔定律在不断发展，但是在不到十年的时间里，把高性能计算的性能提高一个数量级，曾经在很多人看来是“不可实现”甚至是“不科学的”——这其中最主要的原因在很大程度上也是因为摩尔定律：x86处理器即使遵循摩尔定律的增长速度，也难以在不到十年的时间内构建出ExaScale系统，达到令人吃惊的百亿亿级计算的水平。

当然，这其中的原因不能完全归结于x86处理器性能无法呈现爆发式增长，很大程度上也来自于我们对能耗、处理器间通信以及并行计算能力方面的限制。简单说来，我们确实可以使用堆砌处理器的方式来提高系统的整体性能(业界当然也确实这么做过)，但其功耗基本上是难以接受的;另一方面，处理器间通信的问题将会让这一堆砌出来的系统变得臃肿和低效率，其性能利用率会非常之低;第三，无法实现高度并行计算的系统，即使通过处理器堆砌出来，也只是“理论峰值”，而无法应用到真实环境中去——对高性能计算系统来说，只有一个真正可用的系统才是有实际意义的，否则就只是纸糊的四架马车而已。

因此，业界就开始寻找新的方式方法来达到ExaScale级别的计算能力，而Roadrunner就是我们突破性能极限的一个开路先锋，其之所以能够打破1PetaFLOP的计算能力，很大程度上是因为这是一台混合计算设备，它通过采用不同类型的处理引擎极大的提高了该系统的峰值性能。由此开来，混合计算——这一能够极速提高高性能计算系统性能的——系统架构设计方法被广泛采用，如今几年过去再看TOP500榜单，混合计算已经蔚然成风。

但混合计算也并非不存在问题，首当其冲的问题就是编程上的问题，这也是为什么早期的GPGPU(以及GPU)+x86架构的混合计算高性能计算机的效率都不是很高的原因，同时也是为什么混合计算GPGPU(以及GPU)供应商都在类似CUDA编程上投入极大，以帮助用户解决编程问题。

因此，英特尔在几年以前开始计划自己的众核计算架构产品，而藉由其它一些研究方向上的积累，英特尔在MIC众核架构上的发展速度相对来说处于比较快的速度上，2011年在DGEMM 进行的协处理器现场演示中，英特尔进行了使用单颗“ Knights Corner”协处理器提供超过 1 TeraFLOPs(每秒 1 万亿次浮点计算)双精度实际性能的展示。

而在今年的国际超级计算大会上，英特尔使用行业基准测试工具Linpack (Rmax) 1展示了同样超过 1 TeraFLOPs 的卓越性能。相比之下，在 1997 年，ASCII RED高性能计算机采用超过9000 颗英特尔奔腾处理器才突破了1 TeraFLOPs 性能大关(那时候甚至还没有至强处理器)。

今年6月，英特尔不仅进一步公开了至强融核(Xeon Phi)的产品细节、品牌释义，也在6月份的国际超级计算大会上，向业界透露首个搭配采用英特尔至强处理器 E5 家族和英特尔至强融核协处理器的千万亿级(可实现每秒千万亿次浮点计算能力)的高性能计算机将于 2013 年年初推出，并将命名为“Stampede”(与戴尔合作，部署在德州高级计算中心(TACC))。

与此同时，英特尔也毫不掩饰其对第一代至强融核产品“广泛的应用范围所表示出的兴奋”，在大会上，英特尔方面宣布，虽然第一代至强融核主要用于高性能计算(HPC)市场，但是未来还将以至强融核产品家族满足企业数据中心、高性能工作站的高性能混合计算需求——当然，至强+至强融核(Xeon+Xeon Phi)的混合计算架构，目的将主要是为“高度并行的工作负载带来(属于英特尔的)全新性能”。

英特尔Many-core战略开始于2004年，历经多代原型设计，其中不少都是颇具意义的里程碑。

随着今年11月12日英特尔将正式向业界宣布第一代至强融核产品家族的首款产品，Xeon Phi 5110P，DOIT记者也终于能够开始公开在今年10月中旬参加的有关至强融核媒体预览活动上所听到、看到、收集到的各种信息，而这些丰富的信息，相信会对更进一步了解英特尔至强融核有一定的帮助。

编者注：就在此文章刚刚动笔时，2012年下半年的全球高性能计算TOP500排行榜刚刚出炉，美国能源部下属橡树岭国家实验室(Oak Ridge National Laboratory)的新一代超级计算机泰坦(Titan)拔得头筹，而曾经的中国骄傲——中国天河1号A——则滑落到第八名。

由于提前测试和相关合作等原因，至强融核(Xeon Phi)在本届榜单中已经有所应用，共有七套使用英特尔至强融核(Xeon Phi)的高性能计算系统，其中Stampede系统已经发布其测试成绩，这一采用英特尔至强E5-2680+至强融核(Xeon Phi)的混合计算系统，位列第七，它使用戴尔PowerEdge C8220服务器。

上一页 1 2 3 4 5 6 7 下一页

[责任编辑：崔昊]

戴尔携手央视-索福瑞：加速SDN在中国落地

戴尔公司与央视-索福瑞媒介研究有限公司(CSM)成功合作，通过完整的模块化软件定义网络(SDN)解决方案，实现了私有云软件定义网络(SDN)的商业应用。

官方微信