硬盘作为服务器数据的载体、一旦出现故障,就会出现信息的缺失和遗漏。为了解决企业级场景下,硬盘对于精准海量记忆的苛刻要求,腾讯云一方面与全球领先的数据存储解决方案提供商希捷合作,率先在国内引入定制化机制,保证硬盘质量的源头管理;另一方面,利用大数据分析技术对硬盘健康状况作多维度 “体检”,实现了对硬盘品质和可靠性的有效管控,为腾讯云数百万用户的底层数据安全能力提供了强有力保障。
据了解,在当前大数据应用场景中,TB级的大容量机械式硬盘是最为广泛的物理载体,其主流数据记录方式普遍采用垂直磁记录技术,在该技术下主要依靠同等体积内增加磁头、磁碟的数量,以及增加单盘容量的方式来堆高容量。这不仅对硬盘的工艺、机械结构、伺服系统、信号处理等带来极大的挑战,也增加了硬盘数据管理的难题。
与此同时,大数据业务场景下往往伴随着长时间的高工作负载,即便硬盘本身有强大的自恢复机制,但在庞大的强负载压力下,内部的重试纠错机制也会影响到上层的数据读写,影响系统的稳定性。
为有效解决这样的难题,腾讯云携手希捷联合开展独家质量提升项目,率先在国内云厂商中引入定制化机制,实现了根据自身业务需求对硬盘可靠性的“量身定制”。
希捷根据腾讯云的业务需求开发了定制化内部日志,建立新产品联合导入测试机制,帮助硬盘加速进入稳定运营期,提升产品的性能与稳定性,保障用户体验。
经过数月的运营统计数据表明,腾讯云大数据业务中希捷12TB硬盘的可靠性表现得到了显著提升。
据腾讯服务器供应链总经理刘裕勋介绍,硬盘的健康维护是一项综合性工程,腾讯云在硬盘数据安全防护上做了大量的探索,除了和希捷在强化源头管理的同时,为最大程度保护云端用户的安全和稳定,腾讯云还借助最新的大数据AI技术优化硬盘的健康管理。
例如,腾讯云开发的硬盘健康度打分系统,不仅可以智能化对单盘本身的参数进行健康评估,识别出参数恶化的硬盘。在实际业务中,运维人员根据该打分情况,实时掌握重点客户的硬盘健康状况,对运行着重要业务的机器提前进行低分盘更换,保障业务系统和数据安全。
实际上,除了上述高负载给硬盘带来的威胁以外,随着硬盘本身容量的不断上升,其自身可靠性的挑战也在不断加大。面对这样的挑战,腾讯云通过不断优化自身业务架构,将单盘故障做到业务零感知。
例如,腾讯云对象存储COS业务中就通过就近访问的方式减少访问延迟。在多副本架构下,采用一写多读的读写策略,结合容错机制保证数据一致性。同时,基于该读写策略,计算框架会根据硬盘位置信息采用离数据最近的机器存储数据,很好地规避了由于单盘故障和网络读写导致的延迟和服务不可用情况,有效提升了服务的可靠性。
此外,当出现单块硬盘故障的时候,腾讯云对象存储COS业务会将硬盘置脏处理,同时,将请求分流至可用的硬盘上,并后端进行无感的数据恢复措施,保障数据保持持久高可用状态。
腾讯服务器供应链总经理刘裕勋表示:“大容量的机械硬盘仍然是当前大数据业务的主力存储设备。面对技术以及业务的双重挑战,腾讯云除了加强与全球存储巨头之间的合作之外,还将进一步依托领先的大数据分析技术和业务架构的持续优化,来全面降低硬盘故障对云端业务的影响,为数百万用户的数据安全保驾护航。”