存储技术新知:解析分级存储管理(HSM)及应用

    众所周知,企业的应用系统在线处理大量的数据,随着数据量的不断加大,如果都采用传统的在线存储方式,就需要大容量本地一级硬盘。这样一来一方面投资会相当较大,而且管理起 来也相对较复杂;另一方面由于磁盘中存储的大部分数据访问率并不高,但仍然占据硬盘空间,会导致存取速度下降。在这种情况下,层次化存储管理软件,或称为数据迁移软件,可以在性能和价格间作出最好的平衡。这就是本文要与大家讨论的分级存储管理(HSM)。首先来了解一下分级存储中所涉及的三种存储方式。 
   
    一、三种存储方式
  
    所谓分级存储,就是根据数据不同的重要性、访问频次等指标分别存储在不同性能的存储设备上,采取不同的存储方式。这样一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。在这里就涉及到几种不同性能的存储设备和不同的存储形式了。
  
    目前常用于数据存储的存储设备主要有磁盘(包括磁盘阵列)、磁带(包括磁带机和磁带库)和光盘(包括一切CD-R、CD-RW、DVD-R、DVD-RW等光盘塔和光盘库设备)。从性能上来说,磁盘当然是最好的,光盘次之,最差的是磁带。而从价格上来说,单位容量成本上升磁盘最贵、光盘次之,磁带最低。这就为我们不同的应用追求最佳性价比提供了条件,因为这些不同的存储媒介可应用于不同的存储方式中。这不同的存储形式包括在线存储(OnStore)、近线存储(NearStore)和离线存储(OffStore)。
  
    在线存储
   
    在线存储又称工作级的存储,存储设备和所存储的数据时刻保持“在线”状态,是可随意读取的,可满足计算平台对数据访问的速度要求。如我们PC机中常用的磁盘基本上都是采用这种存储形式的。一般在线存储设备为磁盘和磁盘阵列等磁盘设备,价格相对昂贵,但性能最好。
  
    离线存储
   
    离线存储主要是用于对在线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。离线海量存储的典型产品就是磁带或磁带库,价格相对低廉。离线存储介质上的数据在读写时是顺序进行的。当需要读取数据时,需要把带子卷到头,再进行定位。当需要对已写入的数据进行修改时,所有的数据都需要全部进行改写。因此,离线海量存储的访问是慢速度、低效率的。
  
    近线存储
  
    所谓近线存储,就是指将那些并不是经常用到,或者说数据的访问量并不大的数据存放在性能较低的存储设备上。对这些的设备要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但由于不常用的数据要占总数据量的大多数,这也就意味着近线存储设备首先要保证的是容量。
  
    在分级数据存储结构中,磁带库等成本较低的存储资源用来存放访问频率较低的信息,而磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的总体性价比。
  
    二、分级存储的必要性和主要优点
  
    今天企业的数据中心非常复杂,数据保护是其关键。但是,并非所有的数据都具有同样的价值,也并非所有的企业都具有同样的需求。的确如此,通常认为企业中的关键和非关键数据量也符合“二八原则”,就是只有20%的关键数据,而80%都是非关键的。系统中60%至80%的数据经常在一个月,甚至一年中都不会被访问。而在经常访问的数据中,重要性差别也十分突出,有的数据与用户的业务联系紧密,可靠性、可用性及性能要求都很高,有的尽管经常使用但是与业务联系不是特别紧密。一般来说,重用数据的概率自数据创建3天之后就会下降50%,当数据创建30天后,重用的概率通常会降至很低,而高达90%的数据超过90天后就不会或很少被读取。为了提供良好的数据保护,IT部门通常都保留巨大的空余空间,用以防止出现容量不足的现象。
  
    IT企业总是要面对增长起来无休无止的数据量。各种应用都在创建越来越大的文件,用户也很少删除数据和存档,这就导致要访问旧一些的文件已经变得非常困难。之所以要采取分组存储,是因为它既能最大限度地满足用户随时访问所有需要经常使用的数据,又可使存储成本最小化。综合起来,可以得出分级存储的优点主要体现在以下两个方面:



  • 1、减少总体存储成本

    在传统的在线存储中,所有数据都存储在一线磁盘存储设备上,而由于绝大多数数据的访问率并不高,占住了大量宝贵的磁盘空间,在一定程度上是一种浪费。如果把这些数据转移到存储性能稍低的磁盘(如IDE或SATA接口磁盘)或光盘存储设备上,存储成本可得以大幅降低。



  • 2、提高整体系统性能

    由于绝大部分数据转移到下级存储设备上,那需要时刻保持在线的数据就少了,系统资源的占用也就少了许多,整体系统性能自然也就提高了。如果采用了离线存储方式对很少使用的数据保存在像磁带这样的离线存储媒体上时,则不仅可提高系统性能,还可确保数据的安全性。
   
    三、分级存储的管理
  
    分级存储管理(Hierarchical Storage Management,HSM)就是要将用户拥有的所有存储资源统一管理,提高每种存储设备的利用率,节约了成本。在分级存储中,存储的分级是十分明显的,仅从设备上说,就有磁带机、磁带库、NAS、中低端盘阵、高端存储系统等等。而且在线、近线与离线存储存放的数据价值不同,如何根据用户数据的不同价值合理利用好每种存储资源是一个不小的挑战。
  
    分级存储管理起源于1978年,首先使用于IBM的大型机系统。近10年来,HSM被广泛应用于开放系统的Unix和Windows平台。其中最关键的技术就是近线存储和数据迁移技术。
  
    分级存储管理是一种将离线存储与在线存储融合的技术。它将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中常用的数据按指定的策略自动迁移到磁带库等二级大容量存储设备上。当需要使用这些数据时,分级存储系统会自动将这些数据从下一级存储设备调回到上一级磁盘上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问磁盘的速度上略有怠慢,而在逻辑磁盘的容量上明显感觉大大提高了。通俗地讲,数据迁移是一种可以把大量不经常访问的数据存放在磁带库、光盘库等离线介质上,只在磁盘阵列上保存少量访问频率高的数据的技术。当那些磁带等介质上数据被访问时,系统自动地把这些数据回迁到磁盘阵列中;同样,磁盘阵列中很久未访问的数据被自动迁移到磁带介质上,从而大大降低投入和管理成本。
  
    HSM应用也具备监测磁盘容量并在关键容量情况下做出反应的能力。这种软件经过配置后可以为某个卷设定一个最小的剩余空间,当达到这个极限后自动向用户发出警告,提示用户或自动进行数据迁移。这样便可以立即释放空间,管理员也可以在今后有空闲时再来解决空间的问题。
  
    由此可见,分级存储管理更多从降低成本、不影响数据应用效果的角度解决数据的存储问题。事实上,降低成本、提高效率已成为IT厂商追逐技术进步的一个目标。近线存储就是这种进步的产物。伴随单盘成本的下降,近线存储市场渐热,有业内专家预测,不久的将来,近线存储技术将取代数据迁移技术,用户将以模拟海量空间的、更为安全可靠的磁盘介质保存历史数据。而成熟完善的数据迁移软件技术将更为恰到好处的融入到近线存储设备中,为近线存储技术的发展起到推波助澜的作用。
  
    四、NeytApp NearStore分级存储管理方案
  
    为了使大家对分级存储管理有一个具体的了解,下面结合Network Appliance公司的NearStore近线存储在HSM中的应用介绍分级存储网络架构,同时了解有关产品。
  
    NearStore HSM存储方案体系结构如图所示。此方案的核心设备就是NetApp公司的NearStore存储设备,如NearStore R2000(如图所示)。HSM服务器可以是任何配置相应HSM软件的服务器,甚至PC机。




NetApp NearStore R200 


    NetApp NearStore R200 系统是一个磁盘近线存储系统,它结合了Data ONTAP操作系统功能强大的特点与ATA磁盘驱动器成本低廉的特点。NearStore能够以接近磁带的存储成本提供接近主存储系统的性能。NearStore R200系统可以从8TB扩展到96TB,它既能为中小型企业带来价值,也能为需要实施或增强其存储基础设施的全球性企业客户带来价值。NearStore近线存储设备和HSM服务器都通过交换机连接,而其它本地存储设备可直接挂接在HSM服务器上。
  
    NearStore近线存储设备在如下图所示的三层存储体系结构的应用程序存储和磁带库之间插入经济而易用的磁盘式存储,从而完美地补充并显著地改善现有的磁带备份、存档与数据保护方案。
  
    NearStore通过合并NetApp系统和其他存储设备的近线负载数据,进一步加强了数据保护和管理。 
   
    这一方案具有以下几个方面的特点:




  • (1)大多数HSM方案中,应用程序的源卷必须为本地磁盘或能提供基于块的界面,不能以CIFS或NFS方式进行安装。而在NearStore的HSM方案中,目标卷可以是HSM服务器上以CIFS或NFS方式安装的卷。这样,文件就可在源卷和NearStore卷间进行复制。管理员还可定义清除规则,从而将源卷上的文件变为一个指针,指向其在NearStore上的对应文件。根据操作系统的不同,简单情况下指针可以为符号链接或CIFS快捷方式,复杂情况下则可以为源文件系统中的占位程序。清除规则可由磁盘容量标记触发,或者由执行磁盘扫描过程触发。此外,客户还可使用删除规则将文件从源和NearStore卷中删除。


  • (2)通常,存档产品按“时间点复制”的模式工作,将存在于某个特定时间点的数据取出,并将其复制、移动或迁移到目标卷中去。而NearStore HSM产品则通常按照连续方式工作。如果文件与预先定义的规则或策略相匹配,即可立刻进行迁移。


  • (3)存档产品需要由管理员或由按时间表运行的操作系统调用。NearStore HSM产品则采用服务或守护程序,它们能随时监听请求、截取请求并采取行动。


  • (4)一些HSM产品还提供复杂的存储虚拟技术,从而客户可将所有可用的存储看作一个巨大的磁盘。存档应用程序则不具备该功能。

    分级存储产品和方案还有许多,因篇幅关系在此就不多介绍了。(文/E-WORKS)