“错误”的硬盘驱动器故障是一个大问题

genghz 发表于:13年04月01日 12:56 [转载] 比特网

  • 分享:
[导读] 磁盘驱动器供应商告诉我们,这些年来,有超过一半因为质保维修返厂的驱动器归类到NPF当中——意思是未发现问题。作为一名IT专业人士,我认为这一现象的真正原因,就像困扰许多服务台的那样,位于“键盘和操作人员”之间。

磁盘驱动器供应商告诉我们,这些年来,有超过一半因为质保维修返厂的驱动器归类到NPF当中——意思是未发现问题。作为一名IT专业人士,我认为这一现象的真正原因,就像困扰许多服务台的那样,位于“键盘和操作人员”之间。LSI的Rob Ober最近的一篇博客,像一道新鲜的阳光照在了“错误的驱动器故障”这一难题上,并使我思考为什么这类问题依旧存在。

Ober指出,错误的故障是一个主要问题,不仅仅是从Fry's和Newegg(新蛋)购买裸盘的那些爱好者,还有主要数据中心的运营商。数据中心运营商像你我一样,当遇到驱动器故障就会有实质性的成本开销。举个例子:

  • 由于RAID系统重建差不多4TB的数据到一个热备用驱动器上,系统性能下降经常会持续好几天。在分布式环境中使用向外扩展(scale-out)存储,由于重建数据需要合并多个存储节点,还会影响到网络流量。
  • 有人不得不去更换驱动器

因为驱动器有敏感的企业数据,它必须被保密处理或者销毁。如果你没有足够大到拥有一个协议——你的存储供应商会按照你的要求来更换失败的驱动器,这可能意味着你还需要为不能返还的驱动器支付成本。

问题是,如今的硬盘驱动器由带有固件的内部微控制器来运行。就像你的PC或者Mac,该软件偶尔会瘫痪或者处理器冻结。驱动器遇到一系列没有完成的在开发过程中调试的请求和状态,而它的处理器停止响应来自主机或者RAID控制器的命令。

如果主机或者RAID控制器报告这样的一个驱动器失败,那么驱动器会在脱离主机和在别处测试时重新工作良好。(我们都知道,关闭和打开电源可以解决很多计算机的问题)。事实上,研究表明可以容忍这种类型错误的故障驱动器作为可靠的,只要在它们重置后,便可以当做新的驱动器出厂。

实际上Ober先生找到了一位不愿透露姓名的数据中心运营者,与他分享其驱动器故障统计数字。这个数据中心尽管比谷歌或者Facebook的标准小,但也拥有相当巨大的20多万台服务器。

他们发现:

  • 他们超过30%的SAS驱动器故障是错误的,加起来每天10-15个,或者说是千分之一的年度错误故障率。
  • 直接与服务器主板相连的SATA驱动器,根据驱动器供应商的长期报告它有更高的将近50%的错误故障率,错误的故障率为惊人的每年1%。

一些厂商正在解决这一问题。五年前,Xiotech和Atrato谈到过“自愈”型磁盘阵列,在磁盘停止响应指令的时候它会执行修复任务而不是立即开始RAID重建。Xiotech与希捷(Seagate)紧密合作,甚至可以继续运行带有一个表面损坏的驱动器,或者映射访问绕过它来(将部分)磁头失效。当然,修复过程当中的第一步是在磁盘上执行一个硬重置。

由于行业的变幻无常,人们的注意力转到了闪存上,自愈型阵列不再时尚了。Atrato已经消失,而Xiotech——现在重新命名的X-IO已经显得褪色,有所关联的是,其最后的独立竞争对手Compellent、3Par甚至Nexsan都被收购了。

由于磁盘驱动器是一个双巨头垄断的市场,它的销售量大,产品利润低。我没望希捷还是西部数据(Western Digital)建立一个可以检测到错误故障并自我重置的高度冗余的电路板到驱动器中。但是有几样东西,包括LSI在内的业界厂商可以做到。

像LSI一样的SAS控制器供应商,可以构建错误故障检测和复位功能到控制器中。当驱动器响应失败时,控制器会在RAID开始重建之前给出一个快速反冲。这在SATA驱动器上比较难,因为它缺少一些必要的连接。但是控制SATA规范的人们,在接下来的几年可能在6-12Gbps升级中增加一个硬件复位功能。简单点儿说,阵列供应商可以增加一个切断到单独驱动器的电源来强制复位的功能。

无论你如何切断它,1%的AFR是不可接受的。这个行业应该致力于真正的解决方案,而不只是更快的重建(rebuild)。

[责任编辑:郑磊]
存储在线今天就云存储、WD各系列硬盘、SSD、软件定义存储等一系列热门话题,与西部数据全球云储存产品高级总监Patrick Wilkison进行深入的探讨。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.