融核一出GPGPU可以扔了？-DOIT-数据产业媒体与服务平台

Intel最近发布的至强融核协处理器可谓是赚足了眼球，在Top500上也尽显它强大的实力。Top500作为全球高性能计算的行业风向标，我们在以前看到的一般都是新一代的CPU，GPGPU的系统在排行榜上占据多少多少比例之类的信息，但在今年Intel的这一枚重磅炸弹可以说是直接命中要害。

Intel在07年就已经有了这一计划，当时在竞争对手AMD、NVIDIA竞相推出GPGPU的时候，Intel就准备拿出一种可以编程的多核心芯片“Larrabee”进行抗衡。但由于种种原因一直未能实现，不过这么多年的跳票还是积攒出了一些成果，Xeon Phi一经推出就达到了当今GPGPU计算能力的主流水平。

产品对比

Xeon Phi：

英特尔至强融核Xeon Phi

首先Xeon Phi是基于集成众核(MIC)架构的也就是Intel Larrabee GPU。 Xeon Phi的制造工艺采用了Intel当前最先进的22nm 3-D栅极晶体管。对于Linux操作系统，Xeon Phi是可以不依赖传统Xeon CPU直接运行的，但BIOS等方面还需要做一些小的改动，为了兼容大量传统x86应用，目前还没有推出这样的平台。

NVIDIA Tesla K20X：

NVIDIA GPGPU Tesla K20X

今年TOP500的冠军泰坦所使用的GPU加速器就是Tesla K20X，Tesla K20系列是基于NVIDIA的 Kepler计算架构。采用SMX流式多处理器。除此之外通过增加四倍数量的CUDA架构核心来实现SMX的节能效果，同时还降低了每个核心以及GPU电源门控零件在闲置时的时钟频率，最大限度增大了专门用于并行处理核心而非控制逻辑的GPU区域。

优势对比

性能方面

NVIDIA Tesla K20X：

Tesla K20X屏蔽了1组SMX单元，剩下14组SMX，CUDA计算核心相应的减少为2688个，不过保存了384bit完整的显存位宽，配备的是6GB GDDR5显存，显存频率为5200MHz。由于要面对大核心功耗、良率、发热的问题，Tesla K20X核心频率预设并不太高，为732MHz，单精度和双精度浮点计算性能分别达到了3.95 TFlops和1.31TFlops，比例为1：3。

Xeon Phi：

在Xeon Phi coprocessor 5110P身上我们更多的看到的还是x86的影子，产品虽然使用了多达60个计算核心，当然架构和流水级数的大幅削减，产品的核心频率并不会像桌面产品那样动辄3GHz以上，只有区区1.053GHz，但是和桌面产品相比却有着更高的执行效率，双精度计算性能也突破了1TFlops，为 1.053TFlops。

编程方面

Xeon Phi最大优势就是在使用x86架构的并行计算时不需要对代码进行大规模改写，只需要对编译器和Runtime等进行调整即可顺利使用Xeon Phi进行加速。Intel指出相对NVIDIA的CUDA或者OpenCL等异构计算道路，一些研究机构可以不用重写它们的x86应用。

NICS的MIC架构初步试验结果

Xeon Phi的推出无疑是对NVIDIA GPGPU代表的异构计算构成了威胁，那么有了Xeon Phi之后我们真的不再需要GPGPU了么?

回答是否定的，Intel在Xeon Phi中加入了新的512bit宽度ZMM寄存器指令集，使得Xeon Phi的矢量单元(vector unit)和其他所有Intel处理器产品都不相同，这意味着Xeon Phi系列产品和其他Intel CPU在二进制代码上实际是不兼容的。为 Xeon Phi所编写、编译的代码不能在其余CPU上运行，反之亦然：为SIMD大量优化的代码对Xeon Phi同样没有意义。此外Intel还重申Xeon Phi是一款协处理器，需要CPU的辅助才能发挥应有的作用，从模式上来说已经和NVIDIA的Tesla加速卡类似，偏离了原有的设想。

总结

以上解释与说明只指向一个事实：在MIC架构上编写应用并不比走CUDA/OpenCL GPGPU的道路工作量小。即使是号称通用性最强的OpenCL，代码也必须根据硬件的架构特征所大量的优化与改动，否则得到的性能数据毫无实际意义。联系到目前的实际情况，毫无疑问NVIDIA的CUDA无论性能还是走在了市场的最先端，而OpenCL和Intel要稍微落后一些。

融核一出GPGPU可以扔了？

zhaohang

相关推荐

近期文章

热门标签