探索AI在存储智能管理的应用

作者:浪潮存储产品线副总经理 张凯

解决存储系统的复杂性需要AI

现代数据中心正在迅速发展。可组合(composable)的基础设施、超融合、云解决方案以及大数据和AI的兴起都对IT架构师和运维团队带来了挑战。技术方面新型存储器件(NVME SSD、非易失内存SCM、Optane、AEP等)、软件技术(分布式、数据组织、SPDK、RDMA等)、解决方案(云分层、云缓存、云备份、容器和虚拟化等)的发展使得存储系统也越来越复杂。用户需要一套稳定、高性能而简单易用的存储系统。

站在客户的角度看,存储的生命周期包括准备、实施、维护三个阶段。这是一个非常复杂的过程:准备阶段的难点在实施方案设计。实施过程本身就比较复杂,如果用户需要现场做性能调优,时间可能会长几周。维护阶段的问题定位和解决也是一件具有挑战性的工作。传统的监控和管理方法是利用监控和分析工具来定位和解决生产问题。但是,由于客户生产环境复杂,设备种类和数量又很多,IT管理人员很难独自完成问题的处理,往往需要向各个厂商的专业人士求助。此外,对于厂商来说客服和LMT也是一项成本较高的活动,占用了大量的人力物力。

图1,存储现场服务过程

AI技术可以解决存储系统运行和管理的复杂性问题。AI系统会不断地从存储及其运行环境中采集存储的各种状态信息和性能数据,用机器学习算法分析、学习用户的存储使用情况,进而自动化的调整并优化存储系统,使存储服务能更好地适应用户的需求。比如:智能化的把数据保存在合适的区域、自动的完成数据均衡、预测未来的需求、预防潜在的问题、自动参数调优等。有AI加持的智能存储可以增强系统的可靠性、降低存储的复杂性和维护成本。

权威IT调研与咨询服务公司Gartner也在持续关注存储智能化的发展,并给出了AIOps(Artificial Intelligence IT Operations)的定义: AIOps利用大数据和AI技术增强IT管理和运维的能力,包括:可用性和性能监测、事件关联和分析、IT服务管理和自动化。

客户需要存储的智能管理

全球的客户也期待着智能化的存储产品。IDC在2018年6月完成了一项全球存储客户的智能化特性调查,客户对使用AI / ML算法推动存储系统的改进抱以积极的态度:

图2,IDC调研:客户对AI存储的需求

同时,IDC还调研了已经使用了存储AIOps的客户,询问他们从中得到了哪些好处。图3展示了客户目前最关心的五项智能服务。其中,排第一的AIOps用途是改善系统的整体可用性。其次是加快问题解决速度及提高性能容量规划。预测性地识别任何即将发生的故障,监视与存储相关的其他IT基础架构也被客户重点关注。

图3,IDC调研:用户最希望使用的AIOps特性

存储AIOps的关键技术

图4,存储的AIOps框架

一个完整的存储AIOps框架包括5个过程:

1) 监控:系统首先通过日志、SNMP、RestAPI等技术手段抓取并保存存储系统中的运行状态、性能和故障报错数据,这为AI自优化系统创造了数据基础。

2) 学习:在长时间、海量的监控数据基础上,AI会不断分析用户的IO模型和系统状态信息,学习最佳的应用实践,并自动分析问题根因和发现异常行为。

3) 预测:对于新发现的问题,AI算法都可以自动学习并提取可重复的模式,并将新的算法模型应用到其他尚未发现该问题的设备上,从而准确预测风险和故障。

4) 推荐:除了智能化预测新问题外,AI还会学习出解决和优化问题的具体建议。如修改内外部配置参数、更换部件、系统软件升级等。

5) 实施:AI系统可以自动运行优化措施并解决问题。如果处于安全考虑,也可以停止自动优化系统,人工操作来解决现场问题。

总结起来,AIOps为存储提供了根因分析、预测、自动调优三大功能。Gartner则给出了更为完成的存储AIOps功能。

图5,AIOps的主要功能

学术界也非常关注存储的AIOps。国外的存储和系统领域的顶级会议FAST、ATC、SRE、KDD有很多相关文章,清华大学、中科院、华中科技大学等国内科研机构也在故障预测、根因分析、异常检测、自动调优等方面有优秀的科研成果。

清华大学在《计算机学会通讯》上发表了 “基于机器学习的运维”,系统地阐述了智能运维的关键技术。文中把AIOps分成历史事件、当前事件、未来事件三类应用场景。

历史事件场景中瓶颈分析指的是制约存储或系统服务的硬件或软件瓶颈。热点分析指的是自动挖掘出大于正常阈值性能指标。KPI聚类是对类似的指标曲线进行聚类。KPI曲线关联挖掘是针对两条曲线的关联关系进行挖掘。全链路模块调用分析能分析出模块间的调用关系。异常事件关联挖掘是指对异常事件之间的关系进行关联分析。故障传播关系图融合了以上四种技术,推断出异常事件之间的故障传播关系。

当前事件场景主要是根据当前的日志和告警,快速检测、定位异常,并完成故障的根因分析,最终实现快速止损,控制故障的影响范围。

未来事件场景的技术原理都是通过AI技术自动挖掘故障发生前的日志、性能参数指标,找到故障前的可重复的模式,从而在今后出现类似的日志模式时,提前预测故障、性能容量变化趋势以及系统可能的热点瓶颈。根据IDC的客户调查来看,针对未来事件的预测场景是存储用户关注的重点。

图6 AIOps的关键场景和技术

存储AIOps的产业落地

存储产业界中,HPE在2010年就推出了智能化的存储软件Infosight,提供了预测性分析、端到端的故障定位、性能洞察等一系列的智能化功能。帮助用户分析复杂应用环境下从虚拟机到后端存储端到端的性能瓶颈,确定影响性能瓶颈的主要因素,并最终给出可行的优化或解决问题的建议。浪潮的智能化存储管理软件Inview也实现了磁盘故障预测、性能容量预测的智能化功能,帮助客户预防硬件故障带来的损失,并给出具体的扩容建议,为客户提供更好的存储服务。其他存储领域的主流厂商Netapp、IBM、EMC也在2017年以后推出了自己的智能化产品ActiveIQ、StorageInsights和CloudIQ。