一直以来,政企、高校、医院等各行业的IT运维工作都面临严重的挑战:由于运维非业务系统使用者,或者运维团队在定位和解决问题方面缺少较为高效的方法,业务故障往往都是运维晚于用户发现,门诊系统宕机、教学系统崩溃,这样的事故很多,而且往往一再发生。
这些问题的发生还跟组织机构的调整、科学技术的快速发展、业务量的快速增长、业务环境的日益复杂有着密切的关系,即使是IT系统不断扩容,也难以支撑业务对IT系统的依赖度。
出自Gartner的一份针对全球1500位IT从业人员的调研报告显示,企业首要关注的挑战是安全风险与防护,其次是提升运维效率,三是争取预算和提升团队的发展水平,以按时交付产品、达成目标,进而减少用户的抱怨。而在使用工具的过程中,则希望获得Devops相关的工具支撑、多工具之间组合与打通,尽快确定故障原因、减少无效告警。
如何有效化解上述难题,让运维团队能够具有“先见之明”,不再被动成为救火队,“乐享其成”地达到预期工作效果?
运维三大理念及落地
锐捷网络睿智产品事业部产品总监骆杰提出了三大对策:一是将运维工作重复的事情全部自动化、让复杂工作简单化;二是支撑运维管理者的管理诉求,事件问题可闭环、管理落地有抓手、团队经验可积累和复制;三是业务决策不再“拍脑袋”,而是以数据作为支撑,让运行态势尽在掌控中。
这就是锐捷网络为了让IT运维管理更轻松,提出的“为执行赋能 、为管理赋知、为决策赋见”三大理念。
据骆杰介绍,锐捷乐享智能运维管理平台,首先构建了“先见先行”的运维数据洞察能力,即通过多源的数据接入能力采集所有分散的IT运行数据以及安全事件数据,形成超大型的数据库,尽可能将所有“关系”都自动全部发掘出来并进行洞察,在梳理清楚所有IT设备和数据之间的连接关系之后,相关的“关系网”也就是数据链得以显现:用户每次访问的路径、数据途经哪些设备和链路,一目了然,通过设备及指标体系,对潜在的故障进行准确定位。
这个“先见先行”核心思路最终从三个层面落地:一是将包括有线无线网络、负载均衡、云、虚拟化以及业务系统在内的全域资源等,形成统一的监控和管理;二是在组织上构建起业务监控以及检查的能力,把运维工作自动化,通过运维工具提效赋能;最终通过工作中心把运维的效果直观呈现出来,让IT运维人员“乐享其成”。
“锐捷乐享智能运维管理平台”就是汇聚了上述理念的一个强有力工具。
打造三大创新体系
锐捷为“乐享智能运维管理平台”打造了三个体系:以指标体系为核心的全域资源监控体系,以风险预防为核心的健康检查体系,以用户体验为核心的业务监控体系。
第一,以指标为核心的全域资源监控。
锐捷乐享智能运维管理平台具备全网的自动发现以及智能管理能力。领先业界的是,锐捷以指标体系为核心的全域资源监控功能,可以构建360°全面无死角的可观测视角,减少“噪声数据”带来的干扰,通过有行动力告警,提升故障处理闭环。
例如,从网络带宽的饱和度、数据传输状态、带宽利用率等信息,评估网络的健康情况,并且从数百个指标中选择若干关键指标进行重点关注,从根源上解决告警无效的问题,同时厘清各种IT设备之间的复杂“关系”。一方面自动计算出故障来自哪些设备,影响到哪些的关联设备和人员;另一方面,通过卡点聚合算法自动聚类,消除大量的无效告警。
二是以风险预防为核心的健康检查。
无论是在制造业,还是在医院,数据库是问题发生最为频繁的系统,某大型跨国型数据库常见的故障就有20多类。
锐捷乐享智能运维管理平台内置了24类的识别规则,设定专门的逻辑,有效进行针对性预防。通过梳理网络、数据库、中间件、业务系统等领域常见的故障,分析每个故障背后产生的原因,提前感知和预防。
首先建立起风险的识别库,扫描、感知所有系统的变化,识别到异常的产生并分析产生的原因,同时提供处置建议,帮助运维团队实现一次配制、自动执行,每天生成报告。
这些预防措施,可有效降低故障率,提升了整个运维团队的主动运维能力。
三是以用户体验为核心的业务监控。
在大型机构,一个业务系统可能横跨数十台服务器,用户体验十分重要。而产生故障或延迟的原因有很多,如网络传输质量不佳、服务器性能不够高等等。
锐捷结合自己的经验,从用户感知到分段定位,最终实现故障的定位。
锐捷乐享智能运维管理平台基于真实用户的数据,通过模拟用户使用业务系统的过程,采用流量的采集等技术,实时快速发现和感知业务系统的变化情况,代替人7×24小时地持续工作,还可对每个区域的用户体验进行识别和对比、评估。
“锐捷乐享智能运维管理平台可全面提升IT系统的可观测性,实现复杂故障快速定位、处理和解决,提升业务系统的连续稳定的运行,将被动响应变成主动预防,把故障消灭在发生之前。这也是锐捷的核心价值。”骆杰说。
丰富的行业实践
锐捷运维的发展历程,也是长期支持行业用户运维工作发展的过程,迄今公司已经积攒了接近3000种IT设备监控模型,全面覆盖了网络领域、数据库领域、操作系统领域以及云和虚拟化领域、业务系统等领域。并且还会实时跟踪市场情况,及时更新、全面掌控。
十年间,锐捷的智能运维管理平台在政府、金融、高校等行业得到了广泛的应用,在全国拥有超过3000多不同行业的客户。
如协助部分核心部委信息中心的运维团队构建了IT总控中心,支撑其运维价值呈现;在水利部等其他部委也实现了运维工作的全面覆盖。据悉,65%的国家部委都在使用锐捷的产品来支持他们的IT运维工作。
上千家高校客户也在使用锐捷的产品。高校IT运维的特点是用户量众多, IT规模庞大,而且地域分散。一所985学校的网络设备在4000台到6000台之间,无线AP和无线设备超过1万台,因此故障量也相应较大,但网络信息中心可能就只有两名员工。采用锐捷的产品自动化管控,可极大减少人工干预,及时对每栋楼、每个接入的用户体验进行评价,在办公室轻松感知和处理问题。
国家电网一家下属公司,以前运维团队处理一个大型运维项目需要7名员工,如今仅需3个人。
肩负重任、前景可期
来自IDC和CCW的数据报告显示,2019年及2020年锐捷在IT运维市场占有率均排名第一。
锐捷乐享智能运维管理平台,是锐捷基于十年发展积淀、从设备、人员组织的管理、自动化的提效层面,以及深度参与到一些规范标准的制定过程中,于2021年深度构思完成的全新产品,肩负起锐捷服务更多行业客户并确保信息基础设施安全、稳定、高效运行的重大责任。
“运维工作对于所有IT团队来说都是一件繁重的事情。” 骆杰表示,“希望锐捷乐享智能运维管理平台能够帮助运维团队提升运维效率,通过低代码、‘拖拉拽’方式的灵活自定义,为不同层级人员提供对应的IT资源运行状况、相关运维项目的进展实时展示,帮助帮助管理者提升问题闭环,实现管理落地有抓手,也可以决策支撑,运行态势尽在掌握。”