支持MapReduce “天河二号”打造应用多面手

还记得6月17日,在德国举行的国际超算大会上,中国的超级计算机“天河二号”夺得第41届国际超级计算机Top500排行榜的桂冠。这一让无数国人引以为荣的成绩,把中国的高性能计算机产业推向另一个高潮。而同时,也引发了少数人对于中国高性能计算机的质疑——应用能力与计算能力差距太大,甚至有人对庞大的计算系统嗤之以鼻,认为都是用钱堆出来的,没有实际应用需求。

对此,国防科技大学计算机学院教授、博士生导师,天河高性能计算机系统副总设计师卢凯在接受DOIT记者采访时表示,“首先,不是有钱就能堆出这样具有超强计算能力的系统,而是需要非常的强大的技术实力;其次,‘天河二号’是为了满足广州及附近地区的高性能计算需求而设计的,不仅针对传统的高性能科学计算,而且还兼顾了当前信息处理和分析等需求,从系统架构、技术方案等方面做了很多定制化的设计”。

支持MapReduce 天河二号打造应用“多面手”

“天河二号”由于在设计之初不仅考虑了传统的高性能计算,同时兼顾了信息处理、数据分析等需求,因此,从整机体系结构方面、具体技术方案的方面,“天河二号”都做了很多定制化的设计,试图打造一个能够应对多种应用的应用“多面手”。

首先,在体系结构方面,“天河二号”一改传统面向于高性能计算的架构,采用了“异构多态”的架构。卢凯介绍道,这样的架构不仅仅能够满足高性能科学 计算中以计算为核心的应用类型,同时还面向以I/O为核心的事务处理进行了优化,采用了以中小尺寸的I/O数据吞吐为主的计算模式。整个系统架构,包括I /O处理器的选择,都考虑了这个因素。

其次,国防科大和英特尔一起合作,实现了微异构的计算阵列,采用英特尔至强和英特尔至强 融核来实现,这样的方式,对于我们第三方应用软件以及现有的很多软件来说,具有较好的兼容性、适用性和易用性。

最 后,“天河二号”与“天河一号”一样,继续在自主方面做了很多尝试。比如部分使用了自己的微型处理器,这也是核高基国家科技重大专项的支持,目前 自主研发微处理器主要是用于给天河二号的事务处理和信息服务方面。此外,在互连网络方面也继续针对于天河的规模和计算的需求做了优化,在软硬件联合设计优 化方面做了很多工作,能够满足未来更大规模的网络系统构建需求。

值得一提的是,“天河二号”针对大数据的信息处理也做了优化,比如系统 管理软件方面,采用了多层次的容错设计和及其管理机器的自治故障管理技术等 等,使得系统能够及时发现、诊断和处理故障。同时,在编程模式方面,还对“MapReduce”编程框架进行支持,这对于大数据的处理非常重要。

当前,大数据的处理是高性能计算中心未来非常重要的一个应用方向,“天河二号”也是看到了这方面的需求。卢凯告诉记者,目前有6000多个节点已经部署了 MapReduce的环境,并且已经在视频监控等方面做了一些实际案例。如果能够在英特尔的Xeon和Xeon Phi的微异构体系结构下,提供可靠的、实时的海量信息处理能力,这对于整个广州来说将是一大福音。

从“王侯家”走近寻常百姓 超算应用日渐广泛

“我们的主要目的是应用,拿第一不是目的”,卢凯的神情传递着自豪。

据介绍,“天河二号”今年年底将安装到广州超算中心,将作为广州超算中心的业务主机,主要用于科学计算、工程计算以及信息化服务等多个领域。

谈到高性能计算的应用,卢凯表示,当前高性能计算已经不再是阳春白雪,已经从“王侯家”渐渐走向了平常百姓家。高性能计算机最初是用来解决顶尖的科 学研究问题,比如在宇宙发现等。现在,已经跟我们生活密切相关,比如说大飞机研制、石油勘探、基因工程、大型装备的设计制造等等。

从“天河一号”开始,通过天津超算中心、长沙超算中心,目前正在建设广州超算中心,通过过去几年的工作经验的积累,已经和很多用户建立了良好的合作 关系,他们很多的计算任务都是借助于超级计算机来完成。卢凯在采访时谈到,具体的应用主要包括三个方面:在大科学计算方面,用超级计算机来解决能源问题、 基因问题、地球科学、气候问题等等;在工程方面,刚才大飞机研制、大型装备的设计制造等等;在信息化方面,主要是要服务于广州以及南方的信息化建设,目前 广州的电子政务、GIS地理信息系统都在逐渐往机器上迁移。

对于当前高性能计算应用所面临的问题,卢凯表示,当务之急是解决人才的培养问题。“当前国内高性能计算行业,技术积累和基础相对薄弱,大学的课程的相关内容屈指可数,培养出来的学生也就很难以直接理解和用好这么大的机器,这也是整个国家教育体系的责任”。