清华大学郑纬民:应用是关键 存储不可缺

周济部长为教育部支持的网格起了一个响亮的英文名字ChinaGrid,中文名字也是简单明了的"中国教育科研网格"。到底什么是网格?形象地说,老百姓用电的时候,不用考虑电是哪里来的,怎么产生的,只需要接通电源。网格的使用也有类似之处,用户上网提交请求之后,只需要等结果就可以了,不用管资源是从哪里来的,结果是怎么算的。当然,实现这个目标还需要较长一段时间,这也是ChinaGrid努力的方向。

进中的ChinaGrid

ChinaGrid是由教育部发起,在十五"211"二期支持下启动、得到国家科技部863高性能计算重大专项支持的公共服务体系。其目标是充分利用中国教育科研网(CERNET)优良的基础设施和它上面丰富、优质的各类资源,在中国乃至全世界建设一个最大、最先进、最实用的网格。

首批参加ChinaGrid的有12所高校,包括北京大学、清华大学、北京航空航天大学、上海交通大学、华南理工大学、东南大学、西安交通大学、东北大学、国防科技大学、山东大学、中山大学等。从ChinaGrid诞生到现在,两年多时间里,就已经发展到20所高校的规模,已覆盖全国13个省市中20所高校的计算资源、存储资源和教育科研资源。按照周济部长的指示,ChinaGrid将发展成覆盖100所"211"大学的为国家教学科研服务的大平台。

ChinaGrid聚合计算能力已经达到15万亿次,存储容量达150TB。

ChinaGrid在第一期时已成功部署生物信息、图像处理、海量信息处理、大学课程在线、流体力学网格和数字博物馆等6类应用。在本文后面会有介绍。

ChinaGrid的20个成员学校(将来还会增加)通过自己的机器和CERNET在物理上连在一起,但这样还远远不够,关键要有一个公共中间件平台,这就是我们开发的CGSP(ChinaGrid Support Platform),在这个中间件之上,才是生物信息网格、图像处理网格等应用。

CGSP的现状及国际影响

CGSP是ChinaGrid具有自主知识产权的网格核心中间件。它是由来自全国9所知名高校的42个年轻人,集中在清华大学国家实验室网格研究部,花了两年时间开发出来的。2004年该小组公布了第一个版本,这是全球最早公布的基于OGSA框架,参照WSRF规范实现的基于WSRF的网格中间件。

在第一个版本公布的时候,网格之父Ian Foster也在场,他虽然表示祝贺,但实际上对CGSP并不服气。因为他们的研究开展得比我们早很多。

后来,在2004年底,美国也公布了自己的第一个beta版本。在公布之前,他们把beta版寄给我们,希望我们做测试。测完之后,我们写了足足100页的测试报告。报告主要指出它的问题所在。自此,他们对我们的小组非常感兴趣,说"中国人真是做事情的",并且在2005年4月份和10 月份先后两次到清华大学国家实验室跟我们小组座谈。

2005年在新加坡召开网格会议时,lan Foster特别指出,他认为世界上有两个网格做得比较好,一个是英国的E-Science,还有一个就是中国的ChinaGrid。到目前为止,ChinaGrid跟英国、德国都合作过,和国内外很多公司都在合作,比如与HP合作研制网格监控系统,与Intel开展CGSP与GPE的互联互通研究等。GPE是欧洲的一个标准,互连互通后GPE可以用到我们ChinaGrid的计算资源,我们写的软件也可以用到GPE的计算资源和网络资源。

应用实现资源共享

我们研究网格,最重要的目的是让它应用起来。前面提到ChinaGrid已经建立了6类典型应用,这里先来看生物信息学网格,这个网格每天有5万人次在使用。

生物信息学网格的主要用户是高校研究生物信息学的教师和学生。他们一般来自生物系、物理系、医学院、数学系,这些人面临的问题主要是没有大容量的计算机,编一个软件也比较困难。有了生物信息学网格,教师只需要在上面用,不用关心资源具体在哪里,计算的软件在哪里。

比如,某位教师需要做基因拼接,选中"序列拼接软件"选项,这时会弹出很多个关于序列拼接的软件。该教师从中挑选一个,然后把自己要拼接的数据提交上去即可。生物信息学网格有60多种生物信息软件,连接了6个学校,包括清华大学、北京大学、西安交通大学、国防科技大学、华中科技大学、华南理工大学,共有10多台大型计算设备,集成了很多计算软件,具有超过2万亿次的计算能力。用户的请求一到,网格就将它送到6个学校中某一台计算机去计算,做完之后,将结果返回用户。对用户来说,把请求提交之后,等结果就可以了,不用知道是哪个学校的哪台机器完成的。

再比如"大学课程在线"网格。它由分布在13个城市的22台服务器联合提供服务,上面有近300多门大学课程(还在不断增加),近3000讲(小时)课程录像(还在不断增加),这些课程来自14个重点大学,涉及到文、理、工、医学科,所有的课程都是免费点播的。

西部地区用"大学课程在线"的很多,现在全国很多院校都要自带计算机和课件来参加这个网格。

第三个应用是图像处理网格。它是基于ChinaGrid之上,直接利用其用户管理、系统安全、数据访问和传输等功能,同时针对图像处理的特殊性而建立的网格范围的图像处理应用平台。已经实现数字化虚拟人的三维重建(华中科技大学)、医学图像诊断(中山大学)、遥感图像处理(国防科技大学)等应用。

计算流体力学网格方面,已经实现包括飞行器遗传优化设计等在内的5个典型应用。

而数字博物馆网格也实现了4个大学数字博物馆的互联,提供异构数据库一站式数字标本信息访问服务。

还有一个典型应用平台是由北京航空航天大学、东南大学、山东大学等高校共同开发的海量信息处理网格。它根据现代科学应用和信息服务的特点,集成数据库中的海量信息资源,实现针对大规模信息处理、大规模数据处理的工具集及相关软件服务。该应用为用户提供一站式数字标本信息服务,实现海量异质异构数据的知识挖掘与综合分析,以及广域异构数据库资源的综合管理。典型应用案例包括大学数字博物馆应用、面向西藏羊八井宇宙线Asγ实验的高能物理计算、太空磁谱仪数据处理与分析等。

海量信息存储不可或缺

网格的应用对网络存储系统提出了很高的要求。图灵奖获得者Jim Gray提出了一个新的经验定律:网络环境下每18个月产生的数据量等于有史以来数据量之和。现在,存储产品已不再是附属于服务器的辅助设备,而成为互联网中最主要的花费所在。对存储产品的要求体现在:

高性能:各种对实时性要求严格的应用系统要求存储系统提供高性能的处理和传输能力,尤其在大数据量和高突发性的应用系统中,吞吐量和命令处理速率是非常关键的指标。

可扩展性:存储系统必须能够根据应用系统的需求,动态扩展存储容量、系统规模及软件功能。在许多应用系统如数字图书馆、石油勘探地震资料处理中,需要PB以上级别的海量存储容量。

可共享性:存储资源可以方便地被前端异构平台的主机共享使用。

自适应性:存储系统能够根据各种应用系统的动态工作负载和内部设备能力的变化,动态改变自己的配置、策略以提高I/O性能。

可管理性:当存储容量、存储设备、服务器以及网络设备越来越多时,系统管理变得复杂,因此系统需要提供高可管理性,以减少系统管理和配置的时间。

可靠性/可用性:许多应用系统需要24×365连续运行,要求存储系统具有高度的可用性,以提供不间断的数据存取服务。

一个学校要成为ChinaGrid的成员,需满足三个条件。第一,必须有一台高性能的至少5千亿次的计算机。第二,必须有一台2TB以上的网络存储设备。第三,必须提供给大家能够用的软件,可以买,也可以自己写,或者提供大量的数据。