本文作者Henry Newman是Instrumental Inc.的首席技术官。他是一位行业咨询师,在高性能计算和存储领域拥有28年的工作经验。
DOSTOR存储在线1月17国际报道:灾难恢复(DR)从广义上来说是经常被存储界讨论的一个话题,不过在这篇文章中,我打算探讨整个市场中的其中一个细分市场:针对大型归档的灾难恢复规划。
这是关于归档的两篇文章的第一篇文章。下一篇文章将讨论针对大型归档的架构规划。
首先,我对归档的定义是什么?什么是大型归档?归档就是被保存信息的目录,只不过这些信息中的大部分信息的访问频率很低。
归档的定义近来有些变化。就在三四年前,归档的存储介质一直都还是磁带,只配有小型磁盘高速缓存(通常只占总容量的5%以下)。管理磁带和/或磁盘的软件被称为分级存储管理(HSM),而且这种软件是从35年前的大型机上发展而来的。
如今,我们的许多归档已经存储在磁盘上,而且我们在网络上备份数据。例如,我的工作用个人电脑和家用个人电脑都通过互联网进行备份,而基于云的归档如今也很常见。这当然会引发可靠性方面的质疑,不过这又是另一个话题了。
我对大型归档的定义很简单:任何超过2000个SATA磁盘驱动器的归档。现在,这个数量相当于4PB,随着磁盘容量的增长,明年可能将相当于8PB。考虑到2000个驱动器的预期故障率,我将2000个驱动器作为大型归档的大小标准。即使2400个驱动器的RAID-6设置上,鉴于为单个应用程序管理这么多驱动器所需要的重建时间,这也是一个难度很大的系统。
三种灾难类型
我们有三种灾难需要考虑:单个文件或几组文件的故障、元数据损坏以及我经常说的"喷洒器错误"。
计算机室的喷洒器坏掉可能会破坏所有的设备,而单个文件或一组文件的故障与之相比则是完全不同的问题。一个文件或几组文件的故障的发生概率更高,而且比起全面性的灾难(地震、飓风、闪电电击、供电功率骤增、喷洒器坏掉等)更加普遍。不过,当我设计系统架构的时候,我会保证数据随时至少有两个副本。在大型归档中,鉴于重新复制数据所需要的时间以及考虑到灾难发生后存储系统的数据完整性,两个副本可能还不够。
元数据损坏问题的发生概率不高,不过它确实可能发生,而且发生的概率比许多人想象的要高。元数据损坏可能是文件系统元数据的损坏,或者,如果有使用重复数据删除的话,数据块中某个块的损坏(如果没有得到很好的保护将是个灾难)。
当然,在设计数据保护水平的时候,成本是一个很大的因素。许多厂商宣称有99%、99.999%甚至99.999999%的可用性和可靠性。但是,当你需要保存PB级数据的时候,这种可靠性的概念需要重新考虑。
下图显示了在不同可靠性下的预期数据损失。
在99.99999999%(10个9)的可靠性下,即使只有1PB的数据,仍然有900,720字节的数据预期会损失掉。因此,在大型归档中需要重新考虑可靠性。在一些数据保存环境中,数据损失是不可接受的。我经常在这种类型的环境(比如一个组织从模拟数据迁移到数字数据)中看到一些管理员没有理解在数字媒体上的数据并不是100%可靠的,而且在数字媒介中保存多个数据副本所花费的金钱要超过在书架上保存书籍的成本–考虑到数据必须迁移到新的媒介而且如果数据副本数量不够多的话还不是100%可靠的。
欲想了解更多,请阅读:专家博客:针对大型归档的灾难恢复规划(下)