专家博客:针对大型归档的灾难恢复规划(下)

本文作者Henry Newman是Instrumental Inc.的首席技术官。他是一位行业咨询师,在高性能计算和存储领域拥有28年的工作经验。 

DOSTOR存储在线1月18国际报道: 

对磁盘和磁带归档的建议

对于大型归档,我的数据保护策略和流程建议如下。除了注明的地方外,这些策略和流程都适用于磁盘归档和磁带归档。

数据应该同步复制到潜在灾难区域以外的另一个地方。例如,如果你所在的地区可能有龙卷风,那么你的另一个复制地点应该至少在100英里以外–最好是在500英里以外–大部分龙卷风的行进路线是东西向的,因此你的复制地点应该在你的北面或南面。

用更多的ECC(错误检查纠正)或可用的校验和来验证数据。大多数HSM系统在磁带上有文件校验和,不过在磁盘上就没有这种校验和了。一些技术,比如针对磁盘和磁带的T10 DIF/PI,将在今年推出。许多厂商已经在致力于端到端的数据完整性技术。按文件的校验和已经开始成为文件系统社群的一个普遍话题,但是校验和本身并不能纠正数据,它只是告诉你这个文件是否已经损坏。如果你想知道文件的哪里坏了,你需要文件中的ECC来检测错误点,并希望利用ECC来纠正错误。

如果是基于磁盘的归档,所有的RAID(独立磁盘冗余阵列)设备都应该有"读取时校验码检验"。一些RAID控制器支持这个,不过也有一些不支持。一些RAID阵列支持这个功能不过会导致明显的性能下降。比起只有文件校验和,这个功能提供了另一层完整性,在一些情况下尤其有用,比如当存储系统内部的一些故障问题导致校验和失效的时候。读取时校验码检验功能确保RAID控制器发现损坏的数据块,避免导致整个文件的损坏。

如果是基于磁带的归档,重要的是数据不要直接迁移到磁带,而是先迁移到磁盘然后再通过HSM迁移到磁带。这里,RAID设备必须有读取时校验码检验功能。

确保硬件进行过全面的软错误和硬错误检测。软错误最终会导致硬错误和数据损坏。管理员应该在软错误变成应错误前快速地处理软错误。对于磁带来说,这也是一个很重要的问题,因为磁带还没有自我监视、分析和报告技术(SMART)标准。

如果可以,定期保护和备份文件系统的元数据以及针对磁带数据的HSM元数据,因为元数据在故障后不必恢复所有数据就可以恢复。如果元数据和数据本身在文件系统里是分开的,那么这个流程的效果更好而且也更容易。

定期验证文件校验和。对于大型归档来说,鉴于CPU、记忆体和I/O带宽的要求,这是一个很大的架构问题。

磁盘归档和磁带归档的灾难恢复规划差不多是一样的。一些技术可能有不同,但是关键点是一样的,就是定期做验证,准备好应对可能到来的灾难。有太多的单位没有在大型归档上进行适当的投资并且同时还做梦不会有数据丢失发生。如果你有50PB的归档,只有一个复制站点并因为灾难而丢失了归档,那么你几乎肯定会在重新复制站点的时候丢失数据。存储媒介上的硬错误是没办法完全避开的。

在我的下一篇文章中,我将讨论针对大型归档的架构规划。

本文接:专家博客:针对大型归档的灾难恢复规划(上)