磁带迁移:绝不简单却又迫在眉睫

DOSTOR存储在线 5月18日国际报道:计算机所用的磁带大概已经存续了60年左右的时间。这项技术比目前大多数技术行业从业人士还要年长。 由于磁带备份市场的规模已经远远小于归档市场的规模,磁带迁移就成为磁带行业现在面临的最大问题之一。

大规模归档方案的数据迁移通常会是一个连续的过程。造成这种现象主要有两个关键原因,它们是:

磁带的密度每隔18个月到24个月就会增加一倍,但是同期磁带的性能大约只能提升20%。这意味着即便磁带驱动器数量不再增加,迁移归档数据所需的时间也将越来越长。

磁带驱动器的某些接口如光纤通道1Gb和2Gb已经不再被业界支持。如果不进行迁移,磁带库的数量就会增加,那必然导致成本的大幅上升。

鉴于这些原因及其他一些原因,迁移到新磁带技术就成为当前迫在眉睫的一项任务,同时,迁移必须将其他硬件如服务器、RAID存储和交换机等也都包括进去。

以前的数据迁移比较简单,但是由于种种原因,现在的数据迁移变得不再简单了。据我了解,我所知道的公司没有几家已经完成了备份迁移,但他们都知道他们必须迁移归档数据。 大部分备份的数据都是短暂的。不错,萨班斯奥克斯利法案要求企业将某些数据保存下来,但是大多数企业并不会经常陷入诉讼案件。 况且,磁带在5年内都是可读的,因此,企业只需将磁带保存在冷库中即可。

这类数据的数量与归档数据如病历卡、哈勃太空望远镜或国家海洋大气管理局卫星图像等数据的数量比起来是微乎其微的。 现在,每一辆汽车和每一架飞机都必须将其结构模型数据和设计资料归档保存,以便日后发生问题时调用。在不远的将来,我们的基因组也将能被保存下来。 大规模归档的数量增长速度比磁带密度的增长速度更快一些,比磁带性能的增长速度更加快。现在,LTO磁带的密度几乎增加了一倍,但其性能大概只提升了20%左右。 许多数据中心要花一年的时间将归档数据从旧式磁带驱动器X迁移到新式磁带驱动器Y。现在已经有了一些软件,可以让归档数据从一家软件厂商迁移到另一家软件厂商的过程变得相对容易一些,但是对于那些没有使用版权磁带格式的厂商来说,这个过程将更加顺利。由于各厂商的情况都不相同,因此我就不在这里展开详谈了。 磁带介质迁移是非常困难的一件事,因此它需要慎重规划以策万全。

需要考虑的因素包括:

硬件方面的考虑

根据归档软件的不同,有4种类型的硬件必须作为迁移计划的部分内容考虑进去:

– 磁带驱动器,包括旧式和新式;

– 连接驱动器的光纤通道交换机接口;

– RAID存储设备;

– 服务器;

旧式和新式磁带驱动器的数量取决于两个因素:

– 完成迁移的速度;

– 用户负载流量是多少以及迁移过程中需要的负载流量是多少;

1、磁带

要想决定需要的磁带驱动器的数量是很难的。要想满足用户需求,到底需要多少新式磁带驱动器呢? 需要多少旧式磁带驱动器呢?随着迁移数据数量的增多,需要多少新式磁带驱动器呢? 这是否会随着时间的推移而发生变化? 如果一项作业需要等待去检索归档数据,这会对数据中心造成何种影响? 显然,这些所有的问题都很难回答。这些问题中,可能只有一部分问题能够通过建模的方式找到答案。但是其他的问题,建模也无能为力。 从旧式磁带驱动器上读取所有的数据,然后写入新式磁带驱动器,这个过程需要花多长的时间,仅这个问题就异常复杂。

如果以LTO-4 800GB、120MB/s来简单计算,读取整个驱动器的数据需要将近2个小时的时间。因此,磁带驱动器可能需要使用2个小时。因为一旦开始读取驱动器的数据,一般政策都规定必须将驱动器上的所有数据都读取出来。 当然,这也是一个政策方面的问题以及HSM软件的潜在政策问题。这只是迁移中必须考虑到的一个问题而已。

根据归档数据所使用的数据使用模式的不同,归档支持需要多长的时间?对工作时间的利用情况如何?由于归档经常发生变化,因此很难判断归档负载是多少。因此,你必须准备更多的磁带驱动器,因为那些驱动器的使用时间通常都比预期的时间更长一些。

这通常会变成一个预算平衡的问题,旧式磁带驱动器的成本通常很低,但新式磁带驱动器的成本要高得多。等待迁移的时间越长,磁带驱动器和磁带的成本就越低,但是迁移旧式磁带驱动器上的所有数据所需的时间就越长。 因此,很难决定最佳的成本模型。

2、光纤通道交换机接口

鉴于你可能会购买更多的磁带驱动器和存储设备,你可能会需要更多的交换机接口。你也许已经配置了足够的备用接口来增加新硬件,但是如果新的存储设备或磁带驱动器要求使用新一代光纤通道技术,你可能还需要升级你的交换机。 

3、RAID存储设备

大多数归档系统都必须先将数据从旧式磁带上读取出来,写入磁盘,然后再从磁盘上读取出来,写入新式磁带。如果归档系统要求在迁移过程中使用磁盘,那么你还需要辅助存储空间和带宽来支持迁移。 增加的数量取决于你有多少备用的带宽和存储空间。例如,完全读取LTO-4磁带的数据并将数据写入LTO-5磁带就需要大量的存储空间和带宽。 如果你想一次性读取和写入,那么你就必须准备1.5TB的存储空间以及140MB/s的数据写入带宽和240MB/s的数据读出带宽。这可能会占用很大一部分RAID控制器的带宽,大约是8GB光纤通道支持带宽的30%左右。

4、服务器

要求先将数据读出并写入磁盘的归档系统所需的CPU资源比磁带到磁带迁移解决方案中的归档系统所需的CPU资源更多。他们还需要更多的存储带宽和PCIe总线带宽来移动数据。 拥有足够的服务器来匹配存储和磁带带宽需求,会增加架构设计问题的难度。

软件方面的考虑

显然,每一个归档软件厂商都有一套工具来支持向新式磁带硬件进行的数据迁移。这些工具通常都有很多可调整参数,让管理员可以控制迁移的速度以及迁移对系统造成的影响。 通常,它们是根据工作负荷量来进行调整的,但是鉴于读取磁带所花的时间太长,因此调整问题被认为是满足要求之前需要考虑的另一个重要问题。

用户

用户通常希望各种资源都是可用的。但是通常,这都是不现实的。 如果你想迁移磁带数据,被占用的资源就会更多,你必须判断迁移会对用户造成多大的影响。通常,这是一个折中的选择问题。

最终归结为成本

如果你愿意花费足够多的时间和金钱来构建和安装所有的新硬件,那么将PB级的数据读出并写入新磁带可能需要几周的时间。实际上,从来没人这么干过。 迁移也从来不会需要非常长的时间来完成。这是在用户需求和财务压力之间求得平衡的重要问题。

有一个问题经常被忽略,但最后却给用户造成了巨大的成本,那就是旧硬件的维护问题。还有一个必须考虑的问题是磁带库的空间和成本。 购买新库是因为你的库空间用完了,将旧的库迁移到更新、密度更高的库有助于节省成本。这个问题并不容易说清楚,因为其中的变化太多,用户的需求也很复杂,此外还涉及到硬件配置、维护成本、采购新库的成本等等。 总的来说,磁带迁移绝非易事。它不可能很精确地完成,因为总是会出现一些无法预见的变化。

在很大程度上,我通常都是根据EJ(技术判断)来做决定。 我通常计划在1年的时间内完成迁移,最多也不能超过18个月。我会尽量增加磁带驱动器和存储设备的数量,一开始只采购一点点,然后每隔几个月增加一点,因为那些产品的价格会随着时间的推移而下降,这样就可以用时间来换取一定的成本节约。 磁带通常是大型归档方案中成本最高的项目。(例如,5万件磁带,每件单价85美元,那么总价就达到了420万美元。因此,在合理的范围内等待一定的时间是可以节省大量的成本的。)

磁带迁移绝不简单,而且代价高昂。但是,等待磁带和硬件消亡了再换用新一代存储产品所需付出的代价更大。