存储知识大起底:企业级存储测试技巧

相对已有近60年历史的硬驱技术而言,SSD是相对较新的技术。不过,对于硬驱技术,我们了解几分呢?从两个重要的试验中或许可以看到些端倪。时间回到2007年,Google公布了一项针对10万用户的PATA和SATA驱动可靠性的调查。Bianca Schroeder博士与Garth Gibson博士计算了一些大型国家实验室中的10万多个驱动的替换率。差别只在于他们还覆盖到了企业SCSI,SATA和光纤通道驱动。

如果你还没有阅读过相关的文章,强烈建议你至少读一读第二个研究的相关文章。而如果你不想去看学术性的报告,也可以了解一下我们的简介。

MTTF 速率

还记得MTBF意味着什么么?我们以希捷Barracuda 7200.7为例,它的MTBF速率达到60万小时。在数量较大的时候,我们预计有一半的驱动会在第一次60万小时的操作中出现故障。假设这些故障在时间上平均分布,即每小时出现一次。我们就可以将其转换为1.44%的年度故障率(AFR)。

但这并不是Google或Schroeder博士的发现,因为故障并不等同于更换磁盘。这就是为什么Schroeder博士要对年更换率(ARR)进行统计的原因。因为这一数据是根据服务记录统计,基于实际磁盘更换数量

虽然数据表的AFR介于0.58%到0.88%之间,ARR值介于0.5%和13.5%之间。所以数据集和类型的ARR是数据表AFR的15倍。

驱动制造商对故障的定义与我们的不同,所以他们强调驱动的可靠性也就不足为奇了。通常,MTBF速率是基于加速寿命测试,返回单元数据或是被测驱动池。不过供应商返回的数据值得怀疑。

驱动随时间变化而出现故障

存储知识大起底:企业级存储测试技巧

存储知识大起底:企业级存储测试技巧

大多数人以为硬驱的故障率就像澡盆曲线。首先,在早期故障期,你会看到许多驱动出现故障。过了这段时期,故障率便会降低。另一方面,驱动耗尽前故障率呈稳步上升的趋势。没有任何研究表明这种假设成立。总体而言,人们认为驱动故障会随着使用时间的延长而增加。

企业驱动可靠性

存储知识大起底:企业级存储测试技巧

对比两个研究,就会发现100万 MTBF Cheetah驱动与30万小时MTBF数据表更为接近。这意味着企业和客户驱动在年故障率方面很相似,特别是当二者的量相当时。据NetApp的技术策略总监透露,存储数列控制驱动类型故障的方式让顾客一直抱着这样的想法:越贵的的驱动越可靠。存储行业不可告人的秘密之一便是大多数企业级与用户级驱动的大部分组件都相同。不过,他们的外部接口(FC, SCSI, SAS或SATA)以及固件设计的优先级别在实际使用有助于对二者进行区分。

数据安全性和RAID

Schroeder博士的研究覆盖了最大的高性能计算实验室中大型RAID系统中所使用的企业驱动。通常,我们主观上认为这类数据在精选过的RAID模式中更安全,不过该研究的结果却有点出人意料。

磁盘更换的时间分布显示了正在下降的风险率,即磁盘更换前预期的使用时间随时间增长。

这意味着数列中一个驱动出现故障会增加其他驱动出现故障的可能性。距离前次故障的时间越长就意味着距离下次更换的时间越长。当然,这关系到RAID的重建进程。经历第一次故障之后,在一小时内出现另一次驱动故障的几率增加了四倍。而在十小时内,出现故障的几率就将下降到两倍。

温度

存储知识大起底:企业级存储测试技巧

存储知识大起底:企业级存储测试技巧

最离奇的报道之一来自谷歌。调查者从SMART——内置于大多数硬驱中的自我监控,分析和报告技术——中获取温度读数,继而发现较高的温度与较高的故障率并无关联。温度似乎对较旧的驱动的影响并不大。

SMART足够智能嘛?

答案是否定的。SMART旨在尽早捕获磁盘错误,以便用户可以备份数据。不过,据谷歌透露,出现故障的硬盘中有三分之一以上都没有触发SMART警报。这并不奇怪,许多业内人士早就料到了这一点。SMART被优化的目的是捕获机械故障,可是很多磁盘仍然是电子的。这就是为什么在出现数据一致性问题的时候无法察觉一些操作和环境方面的故障。如果你正使用SMART来告知可能出现的故障,又想确保数据安全,恐怕要另外再部署冗余层。

原文链接:http://www.tomshardware.com/reviews/ssd-reliability-failure-rate,2923-2.html