中国科学院资源环境数据中心存储系统

项目背景:


    中国科学院地理科学与资源研究所的资源环境数据档案库系统项目的目的是建立国家资源环境数据档案库系统,以存储及管理我国资源环境有关的数据,具体目标是海量资源环境数据档案存储和备份,并在应用系统的支持下支持数据的查询检索及数据的开发应用。


系统需求:


    为了满足应用系统对存储系统的要求,设计方案需要实现下面几个方面:
l 硬件方面:
        a) 大容量、高性能的磁盘存储系统(30TB)
        b) 超大容量、高性能磁带存储系统(300TB,并可进一步扩展)
        c) 管理和应用服务器
        d) SAN连接设备
l 软件方面
        a) 存储系统要求实现SAN下文件共享,使得多个异构平台主机能够通过SAN同时快速访问存储设备中的同一个文件,
        b) 实现数据迁移功能,降低存储总体成本。采用分级存储的方式将大部分的数据从价格昂贵的磁盘存储系统上迁移至价格便宜的大容量磁带存储系统上,而同时不影响使用的性能。
        c) 另外,存储系统应当具有对存储在磁盘和磁带存储系统上的应用数据完善的保护功能,并能够方便地进行数据恢复。


解决方案描述:


    本设计方案选择了ADIC StorNext Management Suite(简称SNMS)来实现存储系统中的SAN下文件共享和数据迁移,磁盘存储系统选用两套HDS Thunder 9200,磁带存储系统选用 ADIC Scalar 10K磁带库,存储服务器和数据库服务器均是SUN Fire V880服务器,数据库产品为Oracle 9i数据库管理系统,还为Oracle9i RAC配置了系统高可用性管理软件??VERITAS Database Edition / Advanced Cluster Server for Oracle 9i RAC。两台Brocade Silkworm 3200光纤交换机形成全冗余的SAN连接。


解决方案主要实现两部分的功能:


1.构建SAN共享文件系统
    l 提高系统的可伸缩性
    SAN共享文件系统能够使多个主机服务器通过SAN同时对数据进行访问,实现了数据访问的高性能。如果采用传统的结构,则存储管理(数据迁移等)与应用(数据库系统)必须运行在同一个服务器上,这就会对服务器提出更高的性能要求,SAN共享文件系统使得存储管理服务器可以与应用服务器运行在不同的服务器上,甚至可以运行在不同操作系统平台的服务器上,当应用需要增加服务器的性能时,可以在原有服务器的基础上进行扩容,也可以增加新的服务器运行新的应用,提高了整个系统的可伸缩性。
    l 支持异种开发平台与资源环境档案库共享数据
    由于有许多应用基于资源数据档案库系统进行开发或需要使用资源环境数据档案库的数据,这些开发的平台有些是Windows环境,有些是UNIX环境,如果基于传统的模式,只能通过LAN对数据进行访问,或在同一台服务器上进行开发。如果通过LAN(或使用NAS服务器方式),不仅会降低数据访问的速度,还会给已经有很重负荷的LAN造成更多的负荷,同时也会降低开发的效率。如果在同一台服务器上开发就会极大地限制应用开发,同时开发系统与应用系统在一个服务器上进行也对对应用的性能与可靠性造成不利的影响。
2.实现数据迁移的意义
    数据迁移是将大量不经常使用的数据存储到较低性能但价格低廉的存储设备上,通常是磁带库系统。资源环境数据档案库拥有400TB海量数据,其中只有少量的数据是经常被应用访问的部分,这包括存放在数据库系统中的数据,而大量的数据都具有较低的访问频率,如果将这些数据都存储在价格很高的磁盘上,则所需要的投资是巨大的。当然,还需要考虑容量能够满足400TB的磁盘存储系统需要多少套高档的磁盘阵列,而这么多的磁盘阵列又如何管理的问题。