IT运营和DevOps团队面临的挑战
我们知道,无论是什么样的运维工种,最基本的职责就是全天待命以保障现业务系统环境的稳定运行。运维盆友们凑在一起谈天说地也绕不开系统的稳定性,可扩展性,灾难方案和监控报警处理,但这些往往都是被动式故障处理,即故障ing或者性能QoS出现下降之后才能启动解决方案“救火”。
比如在存储环境中,资深高级运维工程师都比较头疼的故障问题——磁盘故障。等接到报警报告之后,磁盘故障已经成了过去完成式,工程师的应对策略只能是更换磁盘,让系统环境尽可能快地完成重建恢复,如果是在系统业务负载高的时段更换,需要实时调用资源,进行跨节点计算,这样单盘容量越来越大,数据重构时间越来越长,很容易引发灾难性故障。
而为了提升存储系统的可靠性,多数企业采用的方案是多备份冗余,但这又影响了存储系统的性能,导致用户体验差评。以及采用检测磁盘故障参数的SMART技术来了解磁盘是否需要更换,可SMART也因为局限于磁盘的内部状态检测,所以准确率偏低。
这也是目前运维行业要求工程师的职业素质具备“经验老道,有前瞻性并可以对灾难性故障做预案”的原因之一。
那么有没有一种办法,让我们能提前预测芸芸众“盘”的寿命,避免磁盘故障这样的随机事件影响系统的正常运行?这对运维人员而言显得极为重要,但这似乎超出了人类的能力范围。
人工智能对运维的影响
近年来,人工智能成了全球“热搜体”,它正在普遍适用于不同的行业,并发挥不同的作用。在IT运维方面,人工智能可以充当优化分析和辅助决策的强大工具,它有效地填补了人类与大数据之间的差距,为运维人员提供关于操作情报,迅速解除实时故障排除和决策的警报。
先智数据就是将人工智能引入到了磁盘管理与故障检测当中,并推出了一款智能化的故障数据分析解决方案——DiskProphet,实现智能预测的主动式故障处理——帮助运维工程师在磁盘故障之前协调空间并实施修复操作,从而在应用负载高峰期业务不受影响,同时无形中将线上系统环境的整体在99.9999%的基础上多了一个9的可靠性。DiskProphet基于SMART信息和Metrics(CPU利用率、内存占用率、网络占用率、I/O 负载状态等反应业务负载模式的信息),利用收集的信息来训练神经网络,经过六千万个数据样本的训练,实现对磁盘的寿命预测,并且可以结合应用负载的变化情况给出具体的修复建议,现在DiskProphet对磁盘预测的准确率可以达到98%以上。
如果系统管理员足够放心,还可以让DiskProphet自动启动数据转移和修复操作,实现无人值守,甚至无感知的全自动故障应对。
简单来说,磁盘就好比你放在冰箱里的鸡蛋,被动式故障处理和主动式故障处理的区别在于:前者只会在鸡蛋坏了的时候通知你:这鸡蛋坏了。
而后者则会主动告诉你,鸡蛋会在7天后变质,而在这7天里你有5天被安排了加班,剩下两天刚好有闲,建议最好这两天把鸡蛋解决然后买新的。