北塔软件:如何修炼IT运维“百科全书”

北塔 发表于:13年09月16日 10:53 [综述] DOIT.com.cn

  • 分享:
[导读]在IT运维管理中,我们决不能低估人的价值,但完全依赖个人经验,就很难让IT运维服务水平再上一个台阶。反之,利用IT运维管理软件,将有价值的维修方法、故障排除的方案和经验知识,统一纳入知识库,日积月累后,便建成了IT运维部门“百科全书”。

很多“成功”的运维大师都会以解决各种奇异问题为荣,但如果支撑业务系统的对象数量超越了你的记忆容量,那些凭借经验修复网络的高手就很可能败下阵来。

有一些很蹊跷的网络故障时常会发生在我们身边,在对各种可能因素进行逐一排除后,仍然不能找到故障原因。而当手中拿着数十个故障诊断工具,原始命令熟记于心的时候,在这些特殊网络故障面前,如果只给你2分钟怎么办?

某公司网络与上级公司网络,每隔两个小时就会断开两分钟,之后又会自动恢复正常。同时,由于这套网络系统涉及到广域网络,跨越的节点非常多,且数十套业务流量也跑在里面,理论上讲,可能的故障点非常多,很长一段时间,用户都束手无策。进而,公司请来了“高手”,但留给运维大师捕捉故障的时间段很短,2小时等待,再加上2分钟的破案时限,面对这个十分奇怪的现象,即使这位高手拥有十多年的运维经验,最后也只能卑躬臣服。

求医无果,最后,这家企业决定寻求专业运维厂商的支持。在采用北塔软件的北塔BTIM后,通过北塔BTIM的物理拓扑图发现某台路由器异常,再通过BTIM抓获嫌犯,察看该设备的历史记录,发现该路由器的2M端口每隔两个小时就会自动DOWN掉,然后再重新启动,重启的时间刚好就是两分钟左右。在定位了故障设备后,对其进行针对性的分析,发现是由光端机和该路由器之间的时钟不同步引起的,由此成功地解决了该问题。

在我们崇尚的ITIL参考读物中,“故障管理”的目标就是将 IT 基础设施错误引起的事故和问题对业务的负面影响减到最小,并防止与这些错误相关的事故再度发生。为了实现这个目标,“故障管理”力求第一时间找到引发事故的根源,并着手改善或纠正该情况。

北塔软件认为:IT运维管理部门的真正价值并不是出现故障之后的处理,而是在故障发生前能够准确判断,排除隐患,并避免故障的发生。所以,一个最能帮助企业有效对抗故障难题的方法,是建立主动性的发现机制和流程,可利用北塔BTIM等运维管理软件,首先实施全网范围的基础设施监控,并对每次故障进行“记录、跟踪、监督和分析”。之后,便可限时完成受理、派工、处理、反馈和回访,将服务过程按流程自动化、规范化和标准化运作起来。

在IT运维管理中,我们决不能低估人的价值,但完全依赖个人经验,就很难让IT运维服务水平再上一个台阶。反之,利用IT运维管理软件,将有价值的维修方法、故障排除的方案和经验知识,统一纳入知识库,日积月累后,便建成了IT运维部门“百科全书”。这种良性的循环,既能发挥核心人员的故障排查经验,又能帮助监控或值班工程师快速找到解决办法,提高服务的及时率,从而构建一个超越现在的运维团队。

[责任编辑:李晓菲]
企业业务创新离不开大数据、云计算等新一代技术的推动,而要在日益复杂的IT环境下实现创新,必须先从简化IT系统,让企业内部的业务逻辑和服务能轻易暴露,能够被轻易集成开始,而在这一IT变革的过程中,中间件起到至关重要的作用。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.