千万亿次计算机成为城市名片

高性能计算能力通常被认为是代表着国家科技实力水平的高低。为此,每年两次的国际Top500排名以及国内Top100排名都会引起业内的关注。从报道的角度,排名榜计算能力的变化,国内高性能计算应用的排名情况,是我们重点关注的话题。但自从高性能计算突破了千万亿次/秒的水平之后,特别是今年 10月,由国防科大计算机学院研制成功的我国首台千万亿次超级计算机系统"天河一号"问世,性能和排名之外的因素成为了我们更加关注的话题。

首先是LinkPack测试是否能够说明问题。实际上,所说的千万亿次/秒就是指LinkPack测试的结果。"天河一号"的千万亿次/秒,实际上是该系统的峰值能力,其LinPack测试值只有563.1万亿次/秒,并不是严格意义上的千万亿次/秒计算机。其差别在于,峰值是根据CPU的数量和主频所计算出来的最大理论值,LinkPack求解线性方程式的实际测试结果。

在服务器厂商中流行一种说法,高性能计算是用钱堆出来的,主要肯花钱,很容易用集群的方法构建一台高性能计算机。那么,千万亿次/秒是钱可以简单堆出来的吗?为此,记者也请教了高性能计算的专家,曙光高性能计算首席工程师袁伟。答案是并非这么简单。

袁伟指出,LinkPack测试的确无法准确反映高性能计算能力的高低,有些非线性方程组类型应用,也不适用于LinkPack数据。但 LinkPack测试也有一个显著的优点,就是简单易操作。虽然还存在不足,但目前还没有能够被广为接受的替代性的方案。但即使如此,要想构建一个百万亿次/秒以上的超级计算机,也不是一件简单的事情。首先,为了实现所需要的百万亿次/秒以上的计算能力,所需要的计算节点数众多。以曙光5000A百万亿次 /秒计算机为例,就采用了1900多个四路节点。要想构建千万亿次/秒的计算机,节点机数量就要超过1万个,这就会带来两个问题,一是随着节点数的增多,系统的效率会降低,达不到所需要的计算能力,二来,系统的可靠性就是一个大问题。主要有一个节点出错,就会导致LinkPack测试无法完成。因此,构建一个百万亿次/秒以上的超级计算机,就需要一些独特的技术保障。

此外,需要注意的CPU+GPU的混合结构。所谓GPU简单就可以说成是显卡,它也具有很高的计算能力。但是需要注意的是,GPU对于双精度浮点运算的支持比较差,二来,GPU没有校验,导致计算的结果不可信。此外,更为致命的是,GPU需要重新编程,重写程序。可以说,软件的问题将严重困扰GPU 在高性能计算领域的使用。

如果单纯追逐计算能力,将很可能陷入一个误区。为此,不仅要重视计算能力,更应该关注高性能计算应用软件的发展。据了解,目前国内兴建超级计算中心存在着严重的重硬件、轻软件的问题。继"天河一号"落户天津之后,据了解深圳、北京、上海和山东等省市都把千万亿次/秒作为了目标,大有将"千万亿次 /秒"演变为"城市名片"趋势。硬件领先软件发展,这的确是无可厚非,需要注意的是尽快弥补软件的"短板",否则千万亿次/秒真的就是一个名片而已了!