随着企业信息化建设的逐步推进,内部的各种业务系统也越来越多,对IT运维人员来说,不仅要面对着数不清的告警信息,而且是来自不同平台分散的告警源,不同平台的告警各有特点,甚至还有部分自定义的告警。
于是乎,运维人员看到的报警信息中,经常会包含很多重复和没用的告警,查看起来效率非常低,而且想对告警信息进行关联分析也非常困难,使得运维人员很难及时找到问题,即使找到问题,对告警的处理流程也经常缺乏标准化操作。
这样的背景下,IT运维人员的压力很难消除,博睿数据则希望用OneAlert来解决这类问题。
OneAlert要如何消除IT运维人员的压力
博睿数据产品经理郝宁将OneAlert的价值点总结为“统一、标准、智能”。
“统一”指的是告警事件的统一接入。
博睿数据OneAlert对于常见的公有云,常见的监控工具、自定义监控工具以及博睿数据自研的监控工具都能做统一接入。由于不同告警数据缺少统一标准,博睿数据将这些数据映射成统一的一套标准事件,最后实现统一接入。
“标准”指的是故障的标准化处理。
不同告警平台都有各自的处理流程,处理过程缺乏标准,就会导致处理的效率低下,抬高运维人力成本,OneAlert平台在对数据做了标准化处理后,还会提供统一的故障列表,当一线运维人员在处理告警时候,统一进行标准化处理。
从统一的告警展示方式,到故障通知方式,再到统一的分析和故障处理,全流程实现了标准化,实现了故障的全生命周期闭环管理,大大提升了一线运维人员和管理人员整体的工作效率。
“智能”:指的是告警的智能收敛、智能决策。
面对海量告警信息,原本都是用设置规则的方式,识别告警异常信息之间的规则,通过规则做降噪和收敛,而当数据量更多的时候,设置规则的方式也不再适用,于是,OneAlert就引入了AI算法,通过AI做智能收敛、智能决策。
这样一来,运维人员不需要关注过多的告警信息,在智能决策能力的辅助下,使得故障处理更容易下手,这极大降低了整个运维成本,这是智能收敛、智能决策的价值。
如何真正解决运维行业普遍痛点?
博睿数据OneAlert要解决的问题其实是运维行业的通病,解决之道听起来也都合情合理,博睿数据有什么底气来解决这些行业的痛点呢?
首先,博睿数据结合在运维行业的多年积累,对主流运维监控工具实现了全覆盖,实现了多源异构数据统一标准化接入,用轻量级的工具,将多源异构数据统一成标准化数据接入到OneAlert平台。
具体实现上,OneAlert把告警源、告警对象、告警指标、告警描述等信息,通过Webhook轨调、Restful API上报方式先集成进来,随后,对数据进行过滤、解析、字段映射,映射成博睿数据OneAlert统一的标准信息。
在收集到数据后,博睿数据OneAlert支持用自定义的灵活配置,找出告警数据之间的关联关系后对告警信息做收敛,在一定程度上也可以避免告警风暴,配合AI算法做智能收敛,再加上自定义标签的功能,效果会进一步提高。
具体而言,OneAlert通过机器学习的文本相似算法找到标签之间的关系模型,模型会把相似的告警,相同特征的告警和故障收敛到一起,这样一来,当数据量达到一定程度的时候会更显著。
当OneAlert运行一段时间,系统可以基于历史告警信息关联性,用AI算法来判断具体的收敛行为,把具有相似性,关联性的故障,收敛到一个故障里,这样一来,运维人员只处理少量的故障就可以处理多个告警信息。
智能收敛能在用户没有创建自定义收敛规则的时候发挥作用,OneAlert内置了许多默认的收敛规则,降低运维的复杂度和操作的难度。换言之,只要是用上了博睿数据的OneAlert,无论是告警的数量,还是故障的数量都有显著的下降。
在实际落地部署中,OneAlert的部署方式非常灵活,既支持私有化部署,也支持以公有云SaaS的方式部署,考虑到国内的企业,特别是金融行业在安全方面的考虑,许多时候,都以私有云的方式进行部署。
在降噪、收敛的基础上,OneAlert将开启故障的标准化分析和处理。
最开始,在故障发生时候,为确保故障能被及时发现,OneAlert设置了多种通知方式。
比如用短信、邮件、企业微信、钉钉等方式及时通知到一线运维人员。对于特别严重的故障,OneAlert还支持通知上级领导,从而方便调动更多资源来解决问题。
故障处理时,能快速响应并且精准处置。
处理问题的时候,最需要搞清楚问题的本质,为此,博睿数据OneAlert提供了统一查看页面,当运维人员关注到这些故障的时候,可以看到故障详情,并做出分析,帮助运维人员处置这些信息。
在处置的过程当中,对处置的每一个阶段做处置评论,最后达到故障关闭的状态。故障从产生,到告警通知,然后到处置阶段,到最后关闭告警,整个故障的生命周期就结束了。
故障处理后,还能做统计分析。
透过OneAlert,用户可以查看,究竟哪些东西产生了哪些故障,提供许多针对运维的分析指标。同时,也有对于博睿数据OneAlert自身降噪比、收敛比等情况的数据分析,从而帮助运维人员发现和解决更多问题。
结束语
伴随着IT系统复杂度的提升,IT运维人员的工作难度其实不可避免地增长,当服务不可用的时候,首先想到的都是运维人员来处理问题,直白点说,就是“背锅”。
事实上,很多时候,有些问题可能是其他因素引起的,有许多因素都并不是运维人员能控制的,比如开发人员遗留的Bug,基础设施的意外等等。
随着资源规模的扩张,IT运维人员对于资源的掌控能力或者熟悉程度也不可避免地降低,发现和解决问题的难度系数在增大。
这时候,一个顺手的工具就显得尤为重要了,集中管理的工具能极大获取洞察的效率,而标准化的操作长久来看,不仅能提高效率,还能让故障的处理周期变得更可预期。
在机器学习兴起的背景下,AI技术的引用能帮助运维人员从复杂的信息中获得洞察,也是此类工具非常重要的发展方向,可以说,OneAlert顺应了运维行业发展趋势。