剖析高性能计算中心的灾难恢复方案

    自从9.11之后,各种类型的机构和组织都在谈论着、努力研究和实施着多种灾难恢复方案,其实在9.11之前许多存储了关键数据的备份中心都已经实施了各种方案,从而管理人员可以在晚上美美地睡上一觉,因为他们都知道公司是可以从灾难中恢复过来的。

    不过为高性能计算(HPC)中心提供灾难恢复方案往往不同于为家庭、小办公室、大办公室,甚或跨国公司提供灾难恢复方案。HPC中心的磁带上一般都存储了数千TB以上的数据并且受到HSM(分级存储管理)体系的控制,因而不能使用镜像RAID,所以现在的问题就是:对于那些不能使用镜像RAID硬件却拥有巨大磁带库的HPC中心,你如何进行灾难恢复呢?

    结论

    大型HPC中心利用HSM进行灾难恢复的问题并不容易解决,20世纪90年代早期和中期有一句关于RAID的名言:迅速、便宜还是可靠–三选二。这句话同样适用于今天的灾难恢复方案:灾难恢复要简单、便宜还是轻松–三选二。时间荏苒,随着RAID技术的发展,我相信这种情况一定会改变,但是现在你只有做艰难的选择和折衷了。

    任何灾难恢复方案中最关键的部分就是,要清晰地了解目前正在使用(或者考虑)的HSM特性。不同的厂商推出不同的功能,从而支配了你的某些选择,这些选择同时成为一个巨大的陷阱:如果你针对具体的HSM开发灾难恢复方案,那么从这个HSM向别处迁移将困难重重,不论是转移数据还是必须设计新的灾难恢复方案。

    你必须确保HSM能够同时满足你今天和未来的需要,也就是你必须了解HSM厂商在硬软件支持、特点、性能和可伸缩性等方面的规划,还要确定他们的计划适应你的计划。从一个HSM厂商迁移至另一个是极其困难的,而且有可能成为你最可怕的梦魇。