子鉃 发表于:14年01月22日 16:51 [综述] DOIT.com.cn
2014年放假安排公布之后,大年三十的假期被取消了,这引发网上和媒体上的不满,但对于有些IT运维的领导来说这可是一件“好事”。这是因为每当遇到类似“春节”这种长假前,安排谁来值班可是一件左右为难的事情,尤其是除夕和初一,让大伙抓阄吧,不行!自己来安排吧,大家都叫苦连天。
在大家都可以让紧绷的神经松弛几天的时间里,在电力、交通、医疗、金融、政府等行业中,网络车轮却不会因此停止转动。IT运维人员需要随时待命,处理业务系统可能会发生的各种事件,并可能被召回来加班,修复紧急故障。那么,谁来负责值班,又有几人能安心过节呢?
玩命“加班”就为过年?
在春节前需要对网络进行一次彻底的、全面检查。这是主动运维中预防性检查(PM)的一部分,它可对网络和业务系统运行环境主动地找出可能会影响系统可用性和性能降低的原因,发现可能会影响软硬件严重故障,以及业务系统性能的瓶颈。
老张是某电力公司的信息部主任,他表示:“我从事了十多年运维保障工作了,从被人安排值班,到安排别人值班,每到年关我都纠结。公司采用了轮流排班的方式,这已经逐渐成为了习惯,但每次放假前对所有设备和业务系统隐患的大排查消耗了所有人的精力,不过大家在加班时也很‘快乐’,都希望找出微小的隐患。原因很简单,就是希望网络在放假期间不出问题,所有人可以踏实过年。”
作为国内领先的IT运维管理专家,北塔软件认为:看似简单的值班工作,实际上需要调动“主动运维”的所有环节。而要解决节前“少加班、不加班”的问题,IT部门可以使用北塔BTIM中的自动化巡检功能去替代手工劳动,利用智能巡检功能对全网覆盖的所有系统自动采集指标和对象,实现定时、周期采集和自动判断。这实际上,既提升了巡检的效率,又保障了质量,避免了由于人为原因造成的巡检误差。
“以人为本”怎能随便召回?
没有故障的网络是不存在的,即使你安排好了“春节值班表”,但谁也不能保障在这期间就不会出现问题。而值班人员第一要则就是发现故障,在无法立即解决故障的情况下,就需要正确的“权衡”,评估会波及到核心业务的停滞范围,启动相应的应急流程,从而避免影响面更大的灾难事件发生。
小孙是一个刚毕业两年的新人,但却因技术高超成为了公司的骨干。他对春节充满了期待,但2013年的“春节事件”却给了他当头一棒。“初一早上我接到领导电话,说系统坏了,让我就地包车赶回来。我说可以远程修复一下,但领导说不行,必须火速回来,因为处长请示了主管局长,而他要求所有运维部的人都回现场。我能理解,任何一个问题的发生都会影响到至少一项应用系统不能正常工作,全省相关的业务人员都在眼巴巴地等着故障的排除,他们也在加班,你说局长的压力有多啊!但根本不清楚什么问题,就让我赶回来,这是以人为本吗?”
在同情小孙的同时,北塔软件认为:从这个案例中我们看到,由于值班人员无法掌握全网的网络设备运行情况,当网络发生故障时也无法定位根源,此时只能按照流程通知“领导”。而领导又不清楚业务系统的优先级、故障的影响面,在毫不知情的情况下,也就只能打电话往回叫人了。在这种看似没错的应急流程中,各级运维人员的维护职责不明晰,运维人员实际上都不清楚放假的时候需要待命的是什么。所以,用户对于基础设施的监控工作,一定要扎实到位。只有从完整的监控系统中才能派生出“有意义的”,也就是可执行的、高效的故障恢复流程。另外,有了对于底层设施的数据采集,才能够在引发告警的情况下迅速定位问题根源,才能通过智能关联归并分析出故障等级和影响范围。
告警短信骚扰如何消除?
即使你不值班、也不需要加班,但作为一名IT运维人员来说,除了拜年的短信之外,你收到最多的短信就可能是系统的事件和预警信息了。
对此,北塔软件提供了一个针对放假期间的预警策略建议:用户首先可以将事件与告警分离,然后针对春节自定义告警的规则,过滤无用信息,避免告警“洪灾”在春节期间打乱你的休假安排。同时,用户还可以利用北塔中的告警压缩功能排除重复事件,利用单点告警、复合告警、基线告警结合使用屏蔽虚假事件。
据了解,北塔BTIM为用户带来了完整的“春节值班”解决方案,更是你最好的值班人选。北塔BTIM可以帮助用户实现从节前的巡检,到信息采集、预警,并再到帮助用户能继承历史故障分析经验,实现快速故障定位。同时,北塔BTIM还内置了权责分明的流程化管理,系统、有效、全面地将运维管理中问题的发现机制与问题的处理机制结合了起来。