IT运维管理如何摆脱“不怕坏,就怕慢”的魔咒?

IT运维工程师之间一直流传着“不怕坏,就怕慢”的魔咒。如果是网络发生信息不通、网页不能浏览等连通性故障,运维排错的任务并不困难。可当网络连通性并无问题,业务系统的响应和访问速度却在一步一步变慢,IT运维人员就很难处理这种“软故障”。

对此,作为国内领先的IT运维管理专家,北塔软件认为:管理员应最大限度的保障数据中心的运行效率,不能让“软故障”成为阻碍用户应用的屏障。管理者应站在业务应用的全局角度上指导运维细节,建立业务系统与基础网络的映射关系,使用更先进的IT运维管理分析方法和手段,尽量缩短排除故障的时间,进而提升服务的质量和用户的体验效果。

案例分析:被“怪病”缠身的服务器

小刘,是一家大型企业的运维工程师,但他最近遇到了一种“网络怪病”。业务部门反映,已经上线4年多的CRM(客户关系管理)系统常常出现访问异常缓慢,用户终端需要反复刷新页面,有时还会出现彻底无法访问(访问超时)的问题。另外,还有些业务人员反映,在更新用户联系信息后,已经被更改的用户资料并没有得到更新。而且,这些问题已经被反映到集团老板那里,IT运维部门的领导带着一脸沮丧,要求他迅速查出原因,因为CRM系统的“怪病”严重影响了公司业务处理的效率。

小刘采用的多种方法开始排查故障的源头,例如:业务部门PC终端故障、检查服务器端的性能、找程序开发人员挖BUG、检查数据库、检查交换机、给服务器杀毒、翻阅之前的所有日志、架上流量监控软件……花费了大量的时间,最终也只是找到故障根源可能存在的方向。因为在拔掉交换机上链接服务器的线缆后, FCS帧就会瞬间减少。这应该是网卡损坏(包括协议、驱动、硬件)故障或者连接服务器的网线(包括RJ45头)部分出现了问题,但排除问题所消耗的时间实在让人无法忍受。

北塔软件认为:虽然小刘已经知道了“方向”,但这种拖延的后果,无疑还是把矛头指向了IT运维部门的服务质量。业务系统反应越来越慢的现象,对于系统维护部门的压力将直接集中在故障恢复的时效性上。因此,IT运维管理应该利用主动发现的智能机制,以业务为核心建立一体化的管理体系,才能避免这种“软故障”在数据中心的为非作歹。

北塔BTIM三步解决“软故障”

业务系统是一个整体,造成其缓慢的原因会由多种因素组成,如果利用OSI模型排错,一层一层的来,势必影响故障定位的效率。那么,利用支持业务服务管理(BSM)的工具是否能够实现更简单有效的故障分析呢?下面以北塔BTIM(Betasoft Integrated Management,IT综合管理软件)为例,看看另外一种解决这种软故障的方式:

第1步:利用北塔BTIM,分别对监控对象设置事件触发,特别是性能阀值监控这些最容易出问题的地方,形成设备层面的性能监控;

第2步:把业务系统涉及的每一个对象都合并起来,将所有运维监控对象按照业务访问路径综合起来,形成综合业务视图,并让让整体性能和用户体验关联起来。

第3步:北塔BTIM会智能的发现业务系统缓慢,第一时间通知管理员,而“BTIM故障根源分析策略”便可帮助管理员依据实体业务流分析逻辑,逐层扩大数据采集的深度和广度,层层深入,直达故障根源。

如今,IT运维一体化、智能化管理已是大家普遍关注的热门话题,那些传统分散式、粗粒度、低效率的IT运维管理模式已经难以满足大规模、多层级、全覆盖的运维管理需求。所以,通过建立与IT架构、管理模式等相适应的业务服务模型,不但能够清晰地描述业务与IT之间的关联,更能让主动运维的IT人不惧怕这种“软故障”,进而帮助IT管理人员和业务部门形成合力。