至强融核不出 GPU高性能计算谁与争锋

比特网 发表于:12年11月15日 12:00 [转载] 比特网

  • 分享:
[导读]本次英特尔的至强融核(Xeon Phi)协处理器一共有7套上榜,并且最高排名第七,这或许宣告着一个新时代的来临——单纯依靠通用处理器来构建HPC系统的时代即将过去,而Xeon Phi也正式对以NVIDIA GPGPU为代表的异构计算发起挑战。

今天我想有不少人已经看到新闻了,最新一轮的HPC TOP500名单已经公布。作为全球高性能计算行业的风向标,我们在以前可能看到的更多是新一代使用CPU(比如Intel Xeon E5)、GPGPU(如NVIDIA Tesla)的系统有多少套上榜之类的亮点。而本次英特尔的至强融核(Xeon Phi)协处理器一共有7套上榜,并且最高排名第七,这或许宣告着一个新时代的来临——单纯依靠通用处理器来构建HPC系统的时代即将过去,而Xeon Phi也正式对以NVIDIA GPGPU为代表的异构计算发起挑战。

在本月2日的中国科学院计算技术研究所——英特尔联合实验室揭牌仪式上,计算所所长孙凝晖博士也表达过类似的观点。(详见:“HPC TOP500只是竞赛 异构计算志在数据中心”一文)

英特尔至强融核不出 GPGPU谁与争锋

1997年,第一套使用Intel处理器的Teraflop(浮点运算次数)系统一共使用了9,298颗CPU,占用空间达到72个服务器机柜。而今,英特尔至强融核协处理器提供1Teraflop的性能之需要一块卡,占用1个PCIe插槽(宽度为双插槽)。

可能有人会说,NVIDIA在数年前的T10(Tesla C1060/M1060的代号)就达到了1Teraflop,不过当时可是单精度浮点性能,双精度需要除以8。也就是说Xeon Phi相当于达到了当今GPGPU计算能力的主流水平,不过它的优势主要并不在这里。

英特尔至强融核不出 GPGPU谁与争锋

上面的照片拍得有些不清楚,我们具体解释下。第一项“性能、性能功耗比”,对于一般并行化计算,CPU擅长而加速器(GPGPU)和Xeon Phi不擅长;高度并行化计算则是后两者擅长,通用CPU的表现一般。

接下来的“硬件特定编码”和“限制因异构产生的总拥有成本(TCO)”方面,加速器处于劣势,因为NVIDIA和 AMD的GPU上面运行的程序都要用CUDA等开发环境重新编写,与x86 CPU软件完全是两码事;而Intel Xeon Phi尽管也需要重新开发应用,但由于众核架构中使用了超过50个P54C(当年的Pentium 75-133的代号)核心,总的来说还能沿用x86指令集的编程体系。

英特尔至强融核不出 GPGPU谁与争锋

Xeon Phi的制造工艺采用了Intel当前最先进的22nm 3-D栅极晶体管,并支持最新的Intel软件开发产品。对于Linux操作系统这一点,今天我与英特尔服务器平台产品经理张振宇先生进行了确认—— Xeon Phi是可以不依赖传统Xeon CPU直接运行的,BIOS等方面需要做一些小的改动,但为了兼容大量传统x86应用目前还没有推出这样的平台。

这一点让我们想起了NVIDIA计划在其未来GPU中加入ARM,以便独立启动Linux OS,但现状是——适合,或者说这些协处理器能够运行的应用还比较有限。也有媒体朋友与我讨论:如果主板上取消CPU插座和相关电路,能够降低系统的构建成本,但Xeon Phi会不会影响Xeon的出货量呢?计算发展的趋势也许不以人的意志而转移吧。

英特尔至强融核不出 GPGPU谁与争锋

现在Xeon Phi宣布了2款产品:3110和5110P,后者现已发货(限制对部分客户),前者还要等到明年上半年。Xeon Phi 5110P峰值双精度浮点计算性能为1010 Gigaflop(1.01Teraflop),配备8GB GDDR5内存——带宽320GB/s,225W TDP(热设计功耗)采用被动散热设计。宣称针对内存密集型应用。

再看Xeon Phi 3100,性能只比5110P略低一点,6GB GDDR5内存的带宽为240GB/s,价格也低于5110P。而3110的TDP却高达300W,因此分为主动和被动散热两种外形设计。

据Intel介绍,Xeon Phi 3100的核心数量有所精简(内存总线的位宽应该也是如此),通过较高的频率来弥补性能,这又让我们想起了GPU。于是3100就不太适合大型HPC等密集型应用,因为即使被动散热对气流和供电的要求也提高不少。基于工作站的单机/小型集群环境应该更合适些吧。

下面,我们列出来自不同行业的客户在Xeon Phi产品测试阶段的第一手应用体验(一共是4家)。

英特尔至强融核不出 GPGPU谁与争锋

中国石化石油物探技术研究院

英特尔至强融核不出 GPGPU谁与争锋

位于涿州的中石油东方地球物理勘探有限责任公司

英特尔至强融核不出 GPGPU谁与争锋

中科院计算所

英特尔至强融核不出 GPGPU谁与争锋

中科院过程工程所曾经是NVIDIA Tesla在国内最早批量应用的客户之一,笔者曾经在现场见到惠普xw8600工作站+双Tesla C870的配置。

[责任编辑:赵航]
咸师
中国企业信息化从90年代初期开始起步,经过20年的发展,许多企业尤其是大中型企业的IT架构已经搭建完毕。但是,中国企业信息化建设有一个非常显著的特点是,IT系统建设是根据企业各个阶段的需求完成,并没有一个整体的规划。这就导致企业各个IT系统是孤立的,各个系统无法有效地连接起来。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.