从事主机运维管理工作4年有余,无突出贡献亦无重大事故。随着工作与学习不断深入,渐渐的形成了一种工作方式,或者更准确的说是一种思想:主机运维管理思路决定出路。
随着自己一步步的成长,身边的新人朋友也开始多了起来,看着他们为命令而痴迷,不免有些痛心疾首,倍感吾泱泱中华IT学术界启蒙教育的匮乏,至今没听说过那个学校有正规的Linux或者Unix课程,相反Windows下应用的课程倒是不少。因此,简单总结出了这篇短文,希望能给予初入行的朋友以启迪,我倍感荣幸!
对于我提出的这个观点,有人可能会反对,因为运维工作实际上存在两个比较主要的派系–命令派和思路派。命令派,以操作命令为核心技能,尽可能的掌握所有的命令,通过丰富的命令积累来提高自己的能力;思路派,以一整套处理问题的流程为核心技能,通过不断积累的经验来总结出一套处理问题的思路,但与命令派相比,不会通晓所有的命令,有时甚至是现查现用。我们不能否定命令派的价值,因为所有的命令都是有其存在的意义,正所谓存在就是合理的。不过这里我要提醒各位,我们是从事主机的运维管理,这些主机运行的是生产系统,一旦出问题不是几个命令就能完全解决问题的。要分析,分析问题的根源,根据起因来对症下药,上来就根据表象一通命令往往是事得其反的,不会达到理想效果,或者说不是每次都能够达到的。行内流行一句话:现网无大小。那么,这样一个不容玩弄的一套系统出了问题,谁敢不问问题起源上来就先来他个三板斧?我想每个有点经验的工程师都不会开这样的玩笑,毕竟多数跑着的是一个公司的命根,不然也不会出重金找人来维护。
不要怀疑,命令派大有人在,只是有些连他们自己都没有意识到问题的严重性。命令是重要,但绝对不是最重要的。我们可以把命令比做一种语言,不是每个人都是语言学家,但仅仅是常用的一些语言组成的句子,绝大部分使用这种语言的人都能听懂,透过常用的语言就能传递信息、传递思想、传递情感。面对主机,做个不太恰当的比喻:我们就要把他当成一个已经能够说话但却不懂事的孩子,当他出了问题,我要用命令这种语言来与他沟通交流,告诉他该怎么做才会好起来。
我们要用命令去实现我们的思路,思路大致可分为如下几点:
1.观察现象,是否有规律;确认业务是否正常、数据是否安全。
2.查看系统日志,程序日志以及设备日志,查找错误信息。
3.查看以往工作记录是否有值得借鉴的经验,以进一步判断问题类型(互联网上的经验是可以借鉴的,但需要经过分析后谨慎借鉴)。
4.确认错误类型后,要第一时间报原厂800以确认针对问题类型是否还有原厂服务,如在服务范围并且未过服务期,请原厂处理。
5.在正式动手处理之前,首先要保证数据文件等无法挽回的文件的安全,必要时建议备份到安全的地方,且不要将鸡蛋放在一个篮子中。
6.如果是新问题,没有可借鉴经验,且原厂不提供支持,那么就要好好观察现象、阅读日志了,很多很多的时候日志里都能找到问题的原因,或是一些有价值的提示,关键看你是否仔细查阅。
7.硬件问题比较简单,确认问题后反馈800或者申请备件更换即可。
8.软件问题多数都是进程异常退出(高负载导致程序不稳定、输入数据源不规范、Bug)或是由于硬件问题导致的软件问题。
面对命令派,也不能完全的否定,因为思路派也是一种相对的命令派,只是思路派不去过分的强调命令,而是符合实际需求即可。本着一切从实际出发的原则,用命令来满足思想的需求,通过命令来实现思想。这样只要是一个正确的思想,并通过命令的正确表达,那就会得到预期的效果。
再举个例子,一个剑客和他手里的宝剑,宝剑是命令,剑客是思想,剑本身有好坏,但再好的剑也要有一个武艺高超的剑客才能真正发挥宝剑的作用,或可以这样说,宝剑是对剑客的一个补充,剑客是宝剑的舞台。宝剑需要一个武艺高超的剑客来证明他的价值,一个武艺高超的剑客同样需要宝剑帮助其更好的发挥高超武艺。
命令是死的,但思想是活;命令是肉,思想是骨头,有血有肉有骨头那才能行的正做的端。基于以上阐述我们不难得出一个结论:主机运维管理,思路决定出路。