至强融核不出 GPU高性能计算谁与争锋
比特网 发表于:12年11月15日 12:00 [转载] 比特网
今天我想有不少人已经看到新闻了,最新一轮的HPC TOP500名单已经公布。作为全球高性能计算行业的风向标,我们在以前可能看到的更多是新一代使用CPU(比如Intel Xeon E5)、GPGPU(如NVIDIA Tesla)的系统有多少套上榜之类的亮点。而本次英特尔的至强融核(Xeon Phi)协处理器一共有7套上榜,并且最高排名第七,这或许宣告着一个新时代的来临——单纯依靠通用处理器来构建HPC系统的时代即将过去,而Xeon Phi也正式对以NVIDIA GPGPU为代表的异构计算发起挑战。
在本月2日的中国科学院计算技术研究所——英特尔联合实验室揭牌仪式上,计算所所长孙凝晖博士也表达过类似的观点。(详见:“HPC TOP500只是竞赛 异构计算志在数据中心”一文)
1997年,第一套使用Intel处理器的Teraflop(浮点运算次数)系统一共使用了9,298颗CPU,占用空间达到72个服务器机柜。而今,英特尔至强融核协处理器提供1Teraflop的性能之需要一块卡,占用1个PCIe插槽(宽度为双插槽)。
可能有人会说,NVIDIA在数年前的T10(Tesla C1060/M1060的代号)就达到了1Teraflop,不过当时可是单精度浮点性能,双精度需要除以8。也就是说Xeon Phi相当于达到了当今GPGPU计算能力的主流水平,不过它的优势主要并不在这里。
上面的照片拍得有些不清楚,我们具体解释下。第一项“性能、性能功耗比”,对于一般并行化计算,CPU擅长而加速器(GPGPU)和Xeon Phi不擅长;高度并行化计算则是后两者擅长,通用CPU的表现一般。
接下来的“硬件特定编码”和“限制因异构产生的总拥有成本(TCO)”方面,加速器处于劣势,因为NVIDIA和 AMD的GPU上面运行的程序都要用CUDA等开发环境重新编写,与x86 CPU软件完全是两码事;而Intel Xeon Phi尽管也需要重新开发应用,但由于众核架构中使用了超过50个P54C(当年的Pentium 75-133的代号)核心,总的来说还能沿用x86指令集的编程体系。
Xeon Phi的制造工艺采用了Intel当前最先进的22nm 3-D栅极晶体管,并支持最新的Intel软件开发产品。对于Linux操作系统这一点,今天我与英特尔服务器平台产品经理张振宇先生进行了确认—— Xeon Phi是可以不依赖传统Xeon CPU直接运行的,BIOS等方面需要做一些小的改动,但为了兼容大量传统x86应用目前还没有推出这样的平台。
这一点让我们想起了NVIDIA计划在其未来GPU中加入ARM,以便独立启动Linux OS,但现状是——适合,或者说这些协处理器能够运行的应用还比较有限。也有媒体朋友与我讨论:如果主板上取消CPU插座和相关电路,能够降低系统的构建成本,但Xeon Phi会不会影响Xeon的出货量呢?计算发展的趋势也许不以人的意志而转移吧。
现在Xeon Phi宣布了2款产品:3110和5110P,后者现已发货(限制对部分客户),前者还要等到明年上半年。Xeon Phi 5110P峰值双精度浮点计算性能为1010 Gigaflop(1.01Teraflop),配备8GB GDDR5内存——带宽320GB/s,225W TDP(热设计功耗)采用被动散热设计。宣称针对内存密集型应用。
再看Xeon Phi 3100,性能只比5110P略低一点,6GB GDDR5内存的带宽为240GB/s,价格也低于5110P。而3110的TDP却高达300W,因此分为主动和被动散热两种外形设计。
据Intel介绍,Xeon Phi 3100的核心数量有所精简(内存总线的位宽应该也是如此),通过较高的频率来弥补性能,这又让我们想起了GPU。于是3100就不太适合大型HPC等密集型应用,因为即使被动散热对气流和供电的要求也提高不少。基于工作站的单机/小型集群环境应该更合适些吧。
下面,我们列出来自不同行业的客户在Xeon Phi产品测试阶段的第一手应用体验(一共是4家)。
中国石化石油物探技术研究院
位于涿州的中石油东方地球物理勘探有限责任公司
中科院计算所
中科院过程工程所曾经是NVIDIA Tesla在国内最早批量应用的客户之一,笔者曾经在现场见到惠普xw8600工作站+双Tesla C870的配置。