分级存储管理中数据迁移的触发条件研究

分级存储是指根据数据不同的重要性、可用性、访问频次、存储成本等指标,分别存放在相应的存储设备上。其工作原理是基于数据访问的局部性,通过将不经常访问的数据自动移到存储层次中较低的层次,大大减少非重要性数据在一级磁盘所占用的空间,释放出较高成本的存储空间给更频繁访问的数据,从而加快整个系统的存储性能,获得更好的总体性价比。在分级存储系统中,一般分为在线存储、近线存储和离线存储三级存储方式。

在线存储

在线存储又称工作级的存储,是指将数据存放在高速的磁盘存储设备上(如FC 磁盘或SCSI 磁盘阵列),其最大特征是存储设备和所存储的数据时刻保持“在线”状态,可随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。在线存储适合存储那些需要经常和快速访问的程序和文件,其存取速度快,性能好,存储价格相对昂贵。

近线存储

近线存储是指将那些并不是经常用到或者访问量并不大的数据存放在性能较低的存储设备上。近线存储外延比较广泛,定位于用户在线存储和离线存储之间的应用,包括一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备,如SATA 磁盘阵列、DVD-RAM 光盘塔和光盘库等。近线存储对性能总体要求相对不高,但要求能确保数据可靠、传输稳定、适应一般的数据访问负荷。

离线存储

离线存储主要是用于对在线存储或近线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级的存储。离线海量存储的典型产品就是磁带或磁带库,价格相对低廉,但是访问速度慢、效率低。

分级存储管理

分级存储管理(Hierarchical Storage Management,HSM)是指将高速、高容量的非在线存储设备作为磁盘设备的下一级设备,然后将磁盘中不常用的数据按指定的策略自动迁移到次级大容量的存储设备上;需要使用这些数据时,分级存储系统会自动将这些数据从次级存储设备回迁到一级存储上。对于用户来说,上述数据迁移操作完全是透明的,只是在访问速度上略有些慢,而在逻辑磁盘的容量上却明显感觉提高了。分级存储管理可实现数据在各级存储设备之间的自动迁移。

数据迁移的触发条件

分级存储管理系统需要实时监控在线存储的磁盘剩余空间,根据剩余空间占磁盘总空间大小比例的变化、设定的迁移阀值、参照阀值对数据进行相应的迁入、迁出操作。例如,设定剩余空间的阀值范围是30%—10%,数据迁入、迁出的情况如下表:

数据的价值级别

数据并非生而平等,某一些数据可能更为重要,其访问的性能要求、安全保护级别比其他数据要求高。即使是同一数据,通常它的价值也会随着时间的推移而逐渐降低。

判定数据价值级别的一个有效方法是对数据进行信息生命周期管理(Information Lifecycle Management,ILM)。信息的生命周期可以划分为6 个阶段:创建、保护、存取、访问、?归档和回收

系统在数据创建时就应当获得数据的类型、数据产生时间、数据有效期限、数据对业务的重要性、数据访问的性能要求、数据安全保护级别等相关信息。对数据进行分类,划分价值级别,依照数据价值级别设定数据的存储级别,分配最优化、最具成本效益的存储资源。分级存储管理系统对数据价值级别进行定期的扫描监测,在时间点、数据价值级别、存储层次三者之间建立对应关系。一旦经过某个时间点数据的价值级别发生变化,即可触发数据的迁移,自动将数据转移到合适的存储平台之上。

人为制定的条件

为了更好地辅助数据的管理,通常有人为制定的规章制度对数据存储以及服务提出相应的要求。其中最常见一类是根据数据的时间特性来制定的规则,例如,移动公司一般向客户提供最近5 个月话费详单的网上查询服务。针对这种服务规定,可以对超过这个时间段的话费详单数据设定相应的策略,自动从在线存储迁移到次级存储。