CIO们的无奈:当机原因多 错误并非我

信息系统大当机,是所有做IT的人最不想遇到的事情,只要一当机,所有矛头全都指向IT单位,信息人员不但疲于奔命,更免不了要被骂得狗血喷头。

在现今高度仰赖信息系统的社会,系统当机不仅对企业的运营带来巨大的冲击,甚至对于整个社会的运作都造成了极大的影响。火车订票系统一当机,旅客就不能顺利买到返乡过节的车票;医院的挂号系统一当机,就医的群众就无法看病;银行的ATM系统一当机,着急用钱的就无法取钱。

系统一当机,怎么说信息单位都是要倒大楣的。所以任何一个信息单位只要手上拥有足够的筹码,一定会极尽所能的采取各种防范的措施,来避免当机导致的服务中断,像是常见的系统备份、恢复、异地备份这些能够提高系统可用性的作法。甚至,只要能确保系统不当机,管他是科学还是迷思,任何可能有帮助的都做。放在机柜上一包一包的维护盘,就足以见证信息人员是多么的害怕当机。而有些信息人员到了国外旅游,甚至还不忘带回一些诉求保平安的御手护,将这些护身符挂在机房里求平安。

然而,即使科学与信仰的方法都用上了,三不五时还是会有大当机的新闻。为什么现今已经有那么多诉求保护系统可用性的技术了,却还是保护不了系统呢?从所报导的案例来看,其实你可以发现,系统大当机是一连串的连锁反应,大多是因为多个连锁错误所造成,而其中有些错误是早在当机发生前就已经埋下的,甚至也不是信息单位种下的。

很多时候,当机事件的发生,以及其所造成的冲击程度,是由多个因素所决定的,而其中一些错误在多年前早就已经种下了。

大当机绝非单一错误,也不只是信息部门的责任,在这个信息化时代里,公司管理层也必须知道自己的决策关乎系统的当机。