“与发达国家相比,我国目前在网络存储领域还很落后。而技术的落后还在其次,关键在于意识的落后,还没有认识到发展网络存储的重要性。”许鲁这样对记者说道。
许鲁,中国科学院计算技术研究所研究员,国家高性能计算机工程技术研究中心主任,科技奥运专项暨国家863计划“海量存储系统技术与集成???以海量存储为核心的网络服务器系统”的课题负责人。
“我们当初申报这个项目,最强烈的想法是加快我国在网络存储领域中发展的脚步。”由于有着12年的海外求学及工作经验,许鲁对于国内计算机应用领域的发展有着独到的见解。早在数年前他就敏锐地观察到,目前国内对于服务器的研发已经比较成熟,有的已形成产业化,但在网络存储领域却还是一片空白。而当前国际上的大趋势则是,数据存储越来越快地成为一个独立的研究领域和独立的产业。
“1998年的时候,国外一家著名IT公司的CTO(即技术主管)就说,‘在未来的三到五年内,服务器将成为存储系统的外设。’”许鲁说他到现在仍对这句话记忆犹新。
同时他还特别提到,随着计算机应用技术的发展,数据的重要性凸现出来。作为保存数据的载体,存储系统必须具有高可靠的安全性、稳定性和易管理性。因此,发展自己的存储技术和软、硬件系统,对于国家安全有着极其重要的意义。
因此在2002年,趁着奥运的东风,许鲁和他的同事们申报了该项目并通过审批。历时两年多的科技攻关,该项目已在去年结题,并在今年3月份顺利通过了国家科技部的验收。
该项目研发出来的蓝鲸网络存储系统,与市场上现有的同类产品相比,其性能已达到国内领先,国际先进的水平。许鲁告诉记者,他们已对研究成果进行了产品化,目前已成功的应用到多个领域。例如作为蓝鲸网络存储系列产品之一的蓝鲸并行文件系统,今年被应用于新疆油田公司研究院的石油勘探数据分析,使原来需计算3个月的项目,现在只需要1个月就可完成,大大提高了效率。
据记者了解,目前市场上发展比较成熟的网络存储系统主要分为两种结构:附网存储和存储区域网(英文简称分别为“NAS”和“SAN”)。这两种系统各有其优劣势。NAS系统管理方便,但所能承载的容量和负载有限,可扩展性差,难以适应大规模的应用。SAN的数据传输性能较高,可扩展性较好,但数据共享性很差,设备之间的互操作性也较差。
而课题组所研发出来的蓝鲸网络存储系统,采用集中式管理、分布式处理的总体设计原则,融合了NAS和SAN这两大存储结构的优点,既具有高可扩展性又易于管理,极大地解决了存储子系统日益成为网络服务器系统的主要瓶颈的问题。
许鲁表示,该存储系统能够很好地应对奥运会信息系统里的存储难题。
首先是海量信息存储的难度。当一场比赛结束后,有比赛结果的新闻,有业内人士的评论,还有一些图片和流媒体形式的新闻等。一方面,存储的数据量大;另一方面,数据读写量大且频繁。同时还要保证在短时间内,满足多人同时访问到同一数据或不同数据的需求,这是一般的数据存储系统很难做到的。
其次,奥运会信息的另一个特点是对数据读取的变化幅度大。例如,“申奥成功”的这则新闻,在结果揭晓前,很多人会关注一些预测性的消息,但在结果公布的那一刻,之前所有的新闻几乎都变得无效。原本很“热”的新闻在一秒钟之后立即变得很“冷”,访问量从高峰突然降到零。除了这种情况,还可能会出现同时产生两条新闻,一条会有很多人点击而另一条少人问津的情况,因此在进行数据存储时就要对“热”的新闻和“冷”的新闻区别对待。
此外,奥运会是一个动态性很强的重大事件,各项比赛的结果会持续不断地出来。奥运信息平台如何做到一边在存储大量的新数据,一边还能保证公众的正常访问,这是个大问题。在奥运会期间,如果停掉网络服务进行设备扩充,这显然是不可能的。然而,许鲁和他的同事们通过采用世界最先进的虚拟存储技术,有效地解决了上述问题。所谓虚拟存储,就是将底层的存储设备进行抽象化统一管理,向服务器层屏蔽存储设备硬件的特殊性,而只保留其统一的逻辑特性,从而实现对存储系统集中、统一而又方便的管理。如果把整个存储系统比作一个计算机系统,虚拟存储部分就像是计算机系统中的操作系统,对下层管理着各种特殊而具体的设备,而对上层则提供相对统一的运行环境和资源使用方式。运用了虚拟存储技术后,计算机系统维护人员可以在存储系统正常运行的情况下,在线扩充存储容量。
虽然这个项目的申请,最初是出于为奥运会服务的目的,但许鲁设想的要比这更深更远。他热切的期望,以举办2008年奥运会为助推力,使我国的网络存储领域迅速成长起来。“其实,奥运会对于我国各领域、各行业整体素质的提升带动,远远要比成功举办奥运会本身,具有更加重大而深远的意义。”许鲁如是说。