打造智慧运维平台财政厅IT治理服务的升级之路

信息化技术越来越深入的融入财政管理工作的方方面面,财政厅的信息化建设在向更深层次发展,不仅要保障日常业务工作的正常运转,更重要的是要做好信息化运维管理工作,从网络、服务器、应用系统、维护等方面需要加强运维管理,从而提升信息化管理水平。

随着IT运维管理需求的不断进阶,新一代智慧运维软件孕育而生,它将是具备自动分析、自动学习和自动运维能力的智能系统,更像专属私人医生、健康顾问一样可建立健康标准,并自动采集、统计、处理相关数据(即看病和定期体检),使“体检报告”累积成健康档案,分析运维变化趋势,实现无人工干预的自动化,真正做到省时、省力、省心的高效运维。

近年来,黑龙江全省财政厅为了适应财政信息化工作的新要求、新挑战,参照财政部提出的总体思路:

– 以统一标准规范和财政信息化建设核心要素为重心

– 以信息系统统建统管为手段

– 以业务系统一体化整合与开展财政大数据创新应用为着力点

– 以加强信息安全和IT运维服务为保障

形成了横向一体化、纵向集中化、全省系统化的财政信息化发展新格局。

在此背景下,黑龙江省财税信息中心作为黑龙江省政府主管全省财政收支、财税政策、国有资本金基础工作的综合经济部门,其网络管理范围覆盖了一个省厅,以及十三个市局构成的二级网络管理架构。

为了解决IT运维管理的基础问题,目前黑龙江省财政厅已建立了以监控为核心的运维框架。实现了对各主机系统和多种数据库的监控和管理。

随着各类财务管理应用系统逐步上线,而且对IT依赖程度与日提升,单位内部业务部门对IT 部门所提供信息的实用性要求也越来越高,对业务的载体(整个信息基础平台)也提出了更高水平、更加精细的服务要求。也对现行的运维能力提出了更多挑战:

1、运维工具与运维习惯难以兼容

随着IT运维工作要求的提升,IT运维部门也在不断的摸索最佳运维方式,逐渐形成了一些具有财政网络管理特色的运维经验和问题分析方式,而业界的运维软件往往无法实现对于运维习惯的兼容,导致IT部门无法将管理理论转化成最佳生产力。

2、需要向基于大数据分析智能运维转变

与主要依靠 “经验”的传统管理方式相比,实现智能运维并不是把原来手工操作变成程序化操做。智能运维是一种全新交付能力,追求交付的质量,交付的效率,而这种交付能力的来源就是基于大数据的分析。

3、与不同角色相匹配的交付能力

针对不同业务部门,需要不同种类服务的要求,IT 运行维护人员需要有新的运行维护管理工具以满足单位内部客户、单位外部客户对高质量服务的期待。

黑龙江省财税信息中心在使用运维管理系统方面,分为两部分人员使用,分别为网络科和应用科:

网络科负责省厅网络管理,包含到各地市的链路情况、到各银行的链路情况、视频会议链路情况、重要服务器的链路情况

应用科负责财政厅所有业务系统的运行情况。

因此,智慧运维需要有持续交付的全局思考能力,把交付能力按照角色,场景,IT成熟度来构造不同的交付能力,这样的产品才能把被消耗的彻底人力解放出来。

4、其它挑战

需要满足对于基本状态和性能的无人值守实时展示运维数据,智能抓取关键性能数据,根据预置策略进行数据分析和联动处置可提供强大的平台能力和后台开发能力,能将个性化的分析方式和处置方式快速实现策略化……

良好的运维事件记录和流程,以及之前运维建设积累下的大量数据,为实现智能运维提供了先决条件。经过北塔软件的综合评估,黑龙江省财税信息中心在运维第一阶段已经建立了比较完整的数据采集和处理能力,可以以接口方式为下一阶段分析提供运维数据,且具备大数据采集和存储能力,为实现场景化管理定制提供技术了可能。

黑龙江省财政厅目前的运维需求:

提供强大的扩展能力,支持管理能力的自由扩展支持用户个性化采集程序的快速兼容,实现管理指标的快速扩展采集服务器支持无缝扩展,支持多个采集器同时部署支持管理策略的快速扩展,实现故障处理和巡检管理方式的落地支持用户个性化报表的快速扩展,实现各种具备企业特征的报表数据和展现方式

基于北塔BTSO智慧运维平台,北塔软件为黑龙江省财税信息中心以业务为核心提供了相应解决方案,以自动学习、自动分析、自动运维和全景展示,将智能联动的运维项目落地,并实现以下具体功能:

1、自动学习

实现用户环境数据的学习,结合内置检测指标体系,建立具有用户特征的常态健康标准

2、自动分析

实时监控用户各项运维指标,结合指标变化特征,通过诸如单指标越界比例、多指标组合判断、历史趋势变化等方法自动判断数据异常情况,主动提醒

3、自动运维

提供处置方案的提醒,用户处置程序的调用等多种方案,实现异常问题的及时处理和运维

4、业务可视化

以动态图形的方式实现业务关系和业务状态的信息可视性

5、数据可视化

提供灵活定制的界面,多种大数据结果展现界面,满足运维管理的个性化展示要求

黑龙江省财税信息中心通过数据中心实时收集处理运维数据,为运维团队提供实时决策数据支持。平台将应用进程、数据库、主机、开源组件等对象的巡检指标定义为规则并进行固化。系统建设完成后,实现了实时、全方位掌握系统健康状态,提升了运维团队对故障预判断能力和决策能力。

自主学习基线实现业务异常监控

在日常运维管理中,业务管理的复杂性要远高于设备管理的复杂性,它不是简单的表现为好坏、通断,而是更复杂为可用性问题,可用性判断也是由一批关键指标构成的,但指标的正常与否,不能简单地以固定阈值来对比,要结合真实业务情况的波动来判断。

智慧平台提供智能基线监控方式,支持智能基线的自动学习,通过对正常状态下指标的“历史表现”,加以调整后作为基准线,与以后同样时段的实时指标做对比,如果误差在允许范围内,那么判定为正常,否则为越界,越界次数越多,会导致系统的可用性严重下降,极端情况下导致系统不可正常使用;以此作为业务异常的监控;

另外,系统还提供日、周两种基线方式,周基线可以基准周 周一数据和实际监控周一的,相同时间点进行比对,实现以最相近的基准实现比对,是匹配周一和周末的区别、上午8点和下午4点的业务区别。

定期智能巡检实现无人值守

l  当管理对象被纳入到平台系统后,系统将自行启用符合其管理预案的管理规则,涉及后台采集,海量存储、智能分析;

l  系统按照管理要求实现不同频度的设备数据采集,并且依据自主学习的业务基线以及业界规范基准值,进行定期巡检;

l  将巡检异常以实时状态、越界统计、智能策略方式进行反应;

l  智能巡检对于不符合内置检测阈值的事件定义为越界事件,由于智维事件的阈值风险系数较低,所以不能从单个事件的产生去判断这个对象的运维好坏;

l  平台还推荐以越界事件出现规律为主的分析手段,比如一段时间内的越界比例、日越界增长的角度进行数据判断;

同时,系统也提供了完善的分析统计系统,包通过等级、时间、指标、IP范围查询的越界比例TOPN分析、周越界比率增长TOPN、月越界比率增长TOPN

为了了解实时管理情况,根据不同业务类型整理成一张抽样数据报表也是必要运维手段,系统提供日、周巡检报表,可将影响业务健康度的各个关键指标,按照固定时间点得巡检数据判断、组成一张巡检报表,系统会定期生成并主动发送运维人员。

对于短期内出现越界过多的指标,系统会需要明确及时告知管理员,并且为管理员提供大量的问题处理分析数据和处置建议;

当出现越界异常后,系统会提示具体该指标的管理意义和影响范围,并且业界一般的处理方案;同时给出该指标最近72小时的运行情况,帮助运维团队进一步定位分析问题。

智能策略实现管理策略落地

信息中心的管理实例应用包含了2种管理场景:

一种是在条件完全满足的情况下,自动分析和识别问题异常的,并能根据事先预定的规则进行运维操作落地还有一种触发分析的事件不完全满足,需要分析试探性的排除和定位问题,为了区别入口,前者定义为智能策略,后者定义为分析方案,分析方案可以升级成智能策略

利用智维策略和原有运维经验的组合,系统对于所有管理指标均可实现基础分析方法,当发现异常后,及时了解该异常指标的管理意义和影响范围,以及历史情况,这样将原本专业性过强的指标,直接解释为可以轻松理解和应对话术。

通用指标越界策略,以及对于历史数据的分析回顾,智能分析出指标与历史基准(具体风险阈值的差异),主动提示运维人员异常风险,并同时告知该指标的意义以及异常的处理建议;该策略可覆盖所有类型的指标,包括主机、网络、数据库等,各市级网络用户也可通过该策略关注业务相关的特殊指标,以完成策略的本地化应用。

系统对于主机类两个重要问题“负载过高”“内存泄露”进行了专项分析,针对这两个问题特征,联合进程分析,进一步定位造成这两个问题的具体业务进程,为用户解决系统问题提供有数据、有结论的原因定位。

传统运维中出现网络流量增长过快时,往往只能在阈值点被监控到,而在智能运维领域可以识别数据变化率并可自动通过线路逻辑关系以及IP关联设备自动找出造成此次线路流量陡增的具体IP,实现具象的根原因分析;经过人工判断后,可以对该端口进行快速处置,比如关闭该端口使用;

在数据库管理领域,由于所有性能数据都是动态变化的,往往是否进行异常分析需要多次翻查分散在各个指标的历史记录,极为不便。智能系统通过对故障现场关键指标做数据快照,以异常时刻进行时间切片,将该现场数据进行整体保留,实现了问题现场分析的快捷方式。

专项智维方案快速实现问题排查

系统提供场景化工具用于对专项问题的分析,从而复杂问题的简单化排查,系统在常见操作界面提供快速操作入口,便于管理员能快速调用并解决故障。系统预置多个智维分析方案,并支持快速开发,插件化导入,实现现有业务场景分析的快速集成。

智能分析模块通过固化运维人员经验及自定义分析关联规则,形成特定分析场景,由场景代替人工经验进行作业分析,降低人工分析的不完整性及经验缺乏的影响,通过保证分析的完整性和及时性,提升故障分析的准确性。

新一代智慧平台上线后,系统可以根据要求自动检测设备、线路、应用等IT设施的运行状态:

首先,对于重要的服务器,通过资源分析查看是否存在运行异常的问题

其次,对于视频会议还可通过历史流量记录查看到带宽使用率,方便对未来视频链路的扩容

最后,对于网络设备还避免了设置CPU和内存告警阈值过高异常不告警的问题,大大的节省了运维人员的时间,提升了工作效率