SC12展会有哪些看点?

在下周SC12即将来临之际,许多公司都宣布了重大计划,这样一来,应该能看到更快的用于科学研究项目的计算机出现。所有这些都是高性能计算市场的一部分。

上周,泰坦超级计算机在美国能源部的橡树岭国家实验室被公之于众。该系统据称可以进行超过每秒20千万亿次的浮点运算。它是基于有18688个节点的Cray XK7系统,每个节点包含一个16核心的AMD皓龙6274处理器和Nvidia Tesla K20图形处理器(GPU)加速器。橡树岭方面表示该系统将用于替代能源和能源效率,材料科学以及气候预测等研究领域。

橡树岭国家实验室与Nvidia都谈到了关于结合CPU与GPU核心会如何提高性能和每瓦性能。Nvidia Tesla总经理Sumit Gupta表示,泰坦占用的空间与之前一代的6核心皓龙的美洲豹系统大致相当——大约一个篮球场大小。但它提供了10倍的处理能力,而且是在同等功耗的情况下(实际上是9兆瓦对7兆瓦)。Nvidia一直特别推崇GPU计算的能效。

Nvidia下周即将公布Tesla K20 GPU的具体规格,但已明确表示,它会采用最新一代图形芯片的28纳米开普勒架构。

泰坦公告的内容里,美国能源部还宣布了其计划授予橡树岭国家实验室47亿超级计算核心小时和阿贡国家实验室61个科学和工程项目,作为其创新与新计算在理论与实验方面的影响项目的一部分。阿贡有米拉,一个10千万亿次的超级计算机,基于49152计算节点的IBM Blue Gene/Q系统。

英特尔连同戴尔,惠普和IBM安排了一个新闻发布会,可能会要正式发布其至强Phi协处理器。我们从一个月前的Hot Chips展览会上得到的消息,Xeon Phi,又叫Knights Corner,设计成一个带有公司更传统的至强服务器芯片的协处理器,原先连接到PCI Express总线上。这是英特尔的“多集成核心”的第一个实物,“多集成核心”家族设计用于高并发的工作,英特尔该芯片的设计可以和其他英特尔x86处理器一样,运行同样的基本软件,使用同样的工具,不过有一些优化。

从九月份英特尔开发者论坛的谈论中,我们已经得知它已经用在了德克萨斯高级计算中心的Stampede项目上。英特尔和德克萨斯高级计算中心均表示第一个系统将使用至强E5处理器和至强Phi协处理器提供每秒10千万亿次的浮点运算能力。Stampede现在正由戴尔和英特尔建造,由国家自然科学基金资助,它的目标是在明年成为超级计算机的世界五强之一。它设计用于飓风预测,高速飞机和汽车的风洞模拟,还有医疗气象研究中的悬浮微粒模拟之类的研究。

英特尔表示至强Phi包括超过50个轻量级多线程x86核心,以及一个512位宽的向量运算单元(VPU),但我希望在SC12上能了解到更多细节,包括实际的核心数量和一些真实的性能表现。此外,发布会上戴尔,惠普和IBM的出席可以很好地表明,一场传统高性能计算市场的芯片革新将要开始。

这些都会让英特尔和Nvidia在高性能计算市场展开正面交锋,英特尔方面宣扬至强Phi对重新编程的要求如何之低,Nvidia方面则宣扬Tesla产品的原始性能和每瓦性能。Gupta说橡树岭国家实验室在GPU计算,使应用程序更加并行方面有很大投入,既给编译器使用OpenACC工具,又在需要特别加速的领域使用Nvidia的CUDA编程。(他还说Nvidia有一个优势,因为基本架构也用于图形,言下之意“至强Phi不行”。英特尔显然更强调兼容性。)

展望未来,克雷公司今天推出了X30超级计算机,叫做Cascade,以英特尔至强处理器为架构,使用新的高速Aries互连结构(克雷自创但最近卖给了英特尔)。该系统会首先使用至强E5-2600系列产品,公司表示,使用该系列的处理器,系统可以扩展至超过一百万个核心。此外,未来的版本将提供英特尔至强Phi协处理器和Nvidia的Tesla GPU,克雷表示该系统设计用于扩展高性能计算工作,使之超过每秒100千万亿次。

早期的系统现在正在运送(下个季度才能真正用上),公布了许多客户,包括了在瑞士,澳大利亚,芬兰,日本,德国的超级计算机中心以及加利福尼亚州伯克利的美国能源部的国家能源研究中心。X30部分是由克雷参与的美国国防部高级研究计划局的高能效计算系统项目资助的。

在展会上,我们会看到最新的世界最快的超级计算机500强名单。在上一版中,美国劳伦斯国家实验室的IBM Blue Gene/Q架构的红杉系统占据榜首,其次是日本基于富士通Sparc芯片的“京”系统。今年,橡树岭国家实验室的泰坦会问鼎。

SC12上的许多会议都聚焦在所谓的“超大规模”计算上,也就是超级计算机到达每秒百亿亿次的浮点运算。一些组织正争相朝着这个目标前进,包括所有的大芯片厂商(IBM,英特尔和Nvidia),各种超级计算机中心,甚至政府。例如,中国的研究人员正在建造一个称为天河二号的系统,据他们称在2015年可以突破每秒100千万亿次的浮点运算。不知道这个系统用的是中国的处理器还是一些西方公司的。

我们可能还会听到更多关于互联,结构,输入输出带宽等领域的内容,还有InfiniBand,克雷的Aries,AMD的FreedomFabric这样的技术。我们还能了解OpenACC这样的并行软件的进展还有OpenCL编程框架等的内容。