至强融核不出 GPU高性能计算谁与争锋

比特网发表于：12年11月15日 12:00 [转载] 比特网

分享：

[导读]本次英特尔的至强融核（Xeon Phi）协处理器一共有7套上榜，并且最高排名第七，这或许宣告着一个新时代的来临——单纯依靠通用处理器来构建HPC系统的时代即将过去，而Xeon Phi也正式对以NVIDIA GPGPU为代表的异构计算发起挑战。

今天我想有不少人已经看到新闻了，最新一轮的HPC TOP500名单已经公布。作为全球高性能计算行业的风向标，我们在以前可能看到的更多是新一代使用CPU(比如Intel Xeon E5)、GPGPU(如NVIDIA Tesla)的系统有多少套上榜之类的亮点。而本次英特尔的至强融核(Xeon Phi)协处理器一共有7套上榜，并且最高排名第七，这或许宣告着一个新时代的来临——单纯依靠通用处理器来构建HPC系统的时代即将过去，而Xeon Phi也正式对以NVIDIA GPGPU为代表的异构计算发起挑战。

在本月2日的中国科学院计算技术研究所——英特尔联合实验室揭牌仪式上，计算所所长孙凝晖博士也表达过类似的观点。(详见：“HPC TOP500只是竞赛异构计算志在数据中心”一文)

1997年，第一套使用Intel处理器的Teraflop(浮点运算次数)系统一共使用了9,298颗CPU，占用空间达到72个服务器机柜。而今，英特尔至强融核协处理器提供1Teraflop的性能之需要一块卡，占用1个PCIe插槽(宽度为双插槽)。

可能有人会说，NVIDIA在数年前的T10(Tesla C1060/M1060的代号)就达到了1Teraflop，不过当时可是单精度浮点性能，双精度需要除以8。也就是说Xeon Phi相当于达到了当今GPGPU计算能力的主流水平，不过它的优势主要并不在这里。

上面的照片拍得有些不清楚，我们具体解释下。第一项“性能、性能功耗比”，对于一般并行化计算，CPU擅长而加速器(GPGPU)和Xeon Phi不擅长;高度并行化计算则是后两者擅长，通用CPU的表现一般。

接下来的“硬件特定编码”和“限制因异构产生的总拥有成本(TCO)”方面，加速器处于劣势，因为NVIDIA和 AMD的GPU上面运行的程序都要用CUDA等开发环境重新编写，与x86 CPU软件完全是两码事;而Intel Xeon Phi尽管也需要重新开发应用，但由于众核架构中使用了超过50个P54C(当年的Pentium 75-133的代号)核心，总的来说还能沿用x86指令集的编程体系。

Xeon Phi的制造工艺采用了Intel当前最先进的22nm 3-D栅极晶体管，并支持最新的Intel软件开发产品。对于Linux操作系统这一点，今天我与英特尔服务器平台产品经理张振宇先生进行了确认—— Xeon Phi是可以不依赖传统Xeon CPU直接运行的，BIOS等方面需要做一些小的改动，但为了兼容大量传统x86应用目前还没有推出这样的平台。

这一点让我们想起了NVIDIA计划在其未来GPU中加入ARM，以便独立启动Linux OS，但现状是——适合，或者说这些协处理器能够运行的应用还比较有限。也有媒体朋友与我讨论：如果主板上取消CPU插座和相关电路，能够降低系统的构建成本，但Xeon Phi会不会影响Xeon的出货量呢?计算发展的趋势也许不以人的意志而转移吧。

现在Xeon Phi宣布了2款产品：3110和5110P，后者现已发货(限制对部分客户)，前者还要等到明年上半年。Xeon Phi 5110P峰值双精度浮点计算性能为1010 Gigaflop(1.01Teraflop)，配备8GB GDDR5内存——带宽320GB/s，225W TDP(热设计功耗)采用被动散热设计。宣称针对内存密集型应用。

再看Xeon Phi 3100，性能只比5110P略低一点，6GB GDDR5内存的带宽为240GB/s，价格也低于5110P。而3110的TDP却高达300W，因此分为主动和被动散热两种外形设计。

据Intel介绍，Xeon Phi 3100的核心数量有所精简(内存总线的位宽应该也是如此)，通过较高的频率来弥补性能，这又让我们想起了GPU。于是3100就不太适合大型HPC等密集型应用，因为即使被动散热对气流和供电的要求也提高不少。基于工作站的单机/小型集群环境应该更合适些吧。

下面，我们列出来自不同行业的客户在Xeon Phi产品测试阶段的第一手应用体验(一共是4家)。