董唯元:事前采取行动,是智能化运维最需要颠覆的

4月13-14日,GOPS 2018全球运维大会在美丽的鹏城深圳盛大召开,ProphetStor先智数据受邀出席。大会主要面向IT运维技术人员,碰撞思想火花,交流行业解决方案与最佳实践。先智数据中国区总经理董唯元在企业级AIOps 解决方案专场论坛上,以《AI运维实例分享——如何精准预测磁盘故障》分享其独道观点。

先智数据中国区总经理董唯元

董唯元表示,真正的智能化运维,最需要颠覆的是事前采取行动,数据中心系统故障有半数以上与磁盘有关,通过长周期的磁盘故障预测,可切实解决运维难题。计算集群越大,越难保障可靠性,传统依赖RAID或副本保护的防范机制,仅能在故障发生后被动处理,是用资源利用率换取可靠性,耗时耗力且存在诸多隐患。

结合运行环境训练AI引擎,让机器学习,深入分析并准确预测磁盘故障的方式可实现主动式故障排解,显著提升系统可靠性。“对于用户,既要第一时间修复数据,又要保证前台应用不受影响,未来故障不是随机事件,而是可计划事件。”

先智数据新型智能化故障预测解决方案DiskProphet,将SMART信息与性能负载相结合,SMART信息相当于人的身高、血压和心跳,描述磁盘的健康状态,先智做的事不是看门诊,而是要预判寿命,算出平时吃什么、工作怎么样,这些对寿命都有影响,结合环境因素,综合预测寿命。DiskProphet运用AI技术精准预测磁盘寿命的招数,是传统靠经验建模的方式很难做得准的。

作为AI在企业级IT技术的先行者,先智数据运用基于深度学习的Prophet预测引擎,训练出聪明的神经网络模型,实现对磁盘寿命长周期的精准预测,率先推出了基于AI的DiskProphet产品及磁盘故障预测解决方案,可谓运维圈的“磁盘算命先生”。

实际上,磁盘可没有想象中用得那么久,往往磁盘故障多在系统上线的3个月内或临近保修期,而意外故障往往出现在不恰当的时间点,猝不及防,被动式的传统副本数据保护机制不足以应对当前复杂的运维需求,还会拖累存储系统性能,计算集群的可靠性难以保障。

先智数据DiskProphet通过智能分析硬盘当前健康状况与完整生命周期,精准预测设备寿命与故障可能性(预测准确率超过95%),将不可预知的随机意外故障变为可预先防御的计划事件。该方案迄今已在基于大规模高性能计算集群(HPC)的业务场景成效卓越,为HPC集群高效分析海量磁盘的生命周期,预判故障将要发生的时间节点,避免频繁的任务返工,大幅提升业务效率,正因此,该产品曾荣获“最具创新AIOps产品奖”。

 

本次大会由工信部信通院数据中心联盟(DCA)指导,高效运维社区(GreatOPS)与开放运维联盟(OOPSA)联合主办,业界顶级专家云集,AIOps、运维自动化与DevOps为主旋律,此外还有金牌运维、大数据运维、金融案例、基础架构、运维领导力以及容器与微服务等特色专场。