北塔软件:如何修炼IT运维“百科全书”

很多“成功”的运维大师都会以解决各种奇异问题为荣,但如果支撑业务系统的对象数量超越了你的记忆容量,那些凭借经验修复网络的高手就很可能败下阵来。

有一些很蹊跷的网络故障时常会发生在我们身边,在对各种可能因素进行逐一排除后,仍然不能找到故障原因。而当手中拿着数十个故障诊断工具,原始命令熟记于心的时候,在这些特殊网络故障面前,如果只给你2分钟怎么办?

某公司网络与上级公司网络,每隔两个小时就会断开两分钟,之后又会自动恢复正常。同时,由于这套网络系统涉及到广域网络,跨越的节点非常多,且数十套业务流量也跑在里面,理论上讲,可能的故障点非常多,很长一段时间,用户都束手无策。进而,公司请来了“高手”,但留给运维大师捕捉故障的时间段很短,2小时等待,再加上2分钟的破案时限,面对这个十分奇怪的现象,即使这位高手拥有十多年的运维经验,最后也只能卑躬臣服。

求医无果,最后,这家企业决定寻求专业运维厂商的支持。在采用北塔软件的北塔BTIM后,通过北塔BTIM的物理拓扑图发现某台路由器异常,再通过BTIM抓获嫌犯,察看该设备的历史记录,发现该路由器的2M端口每隔两个小时就会自动DOWN掉,然后再重新启动,重启的时间刚好就是两分钟左右。在定位了故障设备后,对其进行针对性的分析,发现是由光端机和该路由器之间的时钟不同步引起的,由此成功地解决了该问题。

在我们崇尚的ITIL参考读物中,“故障管理”的目标就是将 IT 基础设施错误引起的事故和问题对业务的负面影响减到最小,并防止与这些错误相关的事故再度发生。为了实现这个目标,“故障管理”力求第一时间找到引发事故的根源,并着手改善或纠正该情况。

北塔软件认为:IT运维管理部门的真正价值并不是出现故障之后的处理,而是在故障发生前能够准确判断,排除隐患,并避免故障的发生。所以,一个最能帮助企业有效对抗故障难题的方法,是建立主动性的发现机制和流程,可利用北塔BTIM等运维管理软件,首先实施全网范围的基础设施监控,并对每次故障进行“记录、跟踪、监督和分析”。之后,便可限时完成受理、派工、处理、反馈和回访,将服务过程按流程自动化、规范化和标准化运作起来。

在IT运维管理中,我们决不能低估人的价值,但完全依赖个人经验,就很难让IT运维服务水平再上一个台阶。反之,利用IT运维管理软件,将有价值的维修方法、故障排除的方案和经验知识,统一纳入知识库,日积月累后,便建成了IT运维部门“百科全书”。这种良性的循环,既能发挥核心人员的故障排查经验,又能帮助监控或值班工程师快速找到解决办法,提高服务的及时率,从而构建一个超越现在的运维团队。