在深圳求学毕业后,学校推荐李国平到了本地的一家通信公司做数据监控。李国平说,这个听起来挺神秘的岗位其实是拿着冲击钻往墙上打眼、钉槽板、布线、接线等,做体力活,他说并没有担心自己学无所用,因为搞IT不能好高鹜远,必须脚踏实地。
由于空闲时喜欢看计算机方面的书籍,李国平快速积累了大量计算机理论知识,到2006年底,他终于找到理想的工作,跳槽到了深圳融通环保公司,开始负责网络技术工作。李国平说:“这是我理想中的工作,找到自己想做的工作,当时太兴奋了,就这样开始了我的真正的IT生涯。”
不断充电获取新知识
融通环保公司当时有60多台电脑,李国平负责维护局域网正常办公上网。刚开始由于没多少实际操作经验,遇到小问题也需费九牛二虎之力才能解决好,幸好计算机等IT设备不会经常出问题,因此李国平可充分利用时间,在网络上搜集学习资料,看其他网管怎样工作、与他们交流工作经验、或在论坛看他人在设备管理过程中,遇到问题时,用哪些方法解决。有时遇到难题解决不了,先到百度、GOOGLE搜索引擎上搜,一般都能找到解决问题的办法,如果实在找不到,就上论坛上发帖子,把遇到的问题和其他网友讨论,寻找解决方法,遇到的问题越多,积累的经验也就越丰富。
做网管1年后,李国平觉得局域网维护方面可学的知识太少,太浅薄,而且公司所用的交换机是傻瓜式不可调试的交换机,这与他此时希望自己能搭建广域网,能配置路由器、交换机、成为网络工程师。要学的知识相差太远,于是他从网上搜关于网络工程师认证方面的资料,了解到有CISCO和华为2个不同厂家工程师认证,CISCO考试是全英文的,由于担心英语水平不好,所以,报名参加了华为HCNE网络工程师的晚班学习班。通过几个月的努力,于2008年1月拿到了HCNE证书。
之后,李国平并没有忘记学习,而是又买了HCSE华为高级网络工程师认证的所有教材,继续向更深层次学习。同时也学Linux系统,李国平说:“平常用惯了windows系统,刚开始学linux很不习惯,感觉和windows截然不同,而且装软件也不方便,大部分软件都是源代码tar.gz格式,需要自己编译。就是简单的rpm格式,他也曾经为了装一个能播放视频播放器的mplayer花了2天时间,因次曾经一度想放弃学linux,不过linux毕竟在管理服务器中的功能是非常强大的,最终还是要坚持学习了下去。”
对IT系统可用性研究
李国平说:“做网管这么多年,遇到问题最多的是员工无法上网、局域网之间无法访问、网络打印机问题、计算机闹病毒、系统启动太慢等,这几大问题又包含许多小问题,而且基本上每个小问题的解决方法都不一样,这样使得我对微软操作系统如server 2003、XP/2000等有了较深的了解。其次研究得比较多的是‘IT系统可用性’,因为融通环保公司出现过好几次比较严重的IT故障。”
IT系统可用性是指IT系统计算机软硬件、网络等对用户有效使用和令人满意的程度。狭义上说,可用性指计算机系统的可靠性,即尽量缩短因日常维护操作和突发的系统崩溃所导致的停机时间。而广义上,它还包含了响应速度、服务质量以及数据安全方面的内容。在可用性的考量上,“故障期时间”与“系统恢复时间”是两项最重要的指标。
李国平指出,随着企业信息化水平的提升,日常业务对IT系统依赖程度加剧,IT系统的可用性日益成为企业业务营运的命脉。虽然企业开始日益重视IT系统的可用性,但在理解与实践中还是存在着一些误区与偏差。例如,将IT系统的可用性看成为IT产品质量的孤立事件,指望依赖软硬件产品质量的提升来改进系统的可用性;或缺乏明确的可用性目标,即使有也是通过将软硬件系统的可用性指标相叠加得到,而非从业务角度去设定。实际上,在造成系统停机的原因中,软硬件故障只占20%的比例,而其余的人为错误、系统架构和应用程序不当操作造成的故障所占比重高达80%。而且用户通常分不清楚什么是网络故障、服务器故障、服务故障、安全故障,他们只会把任何问题都看作是系统故障。
因此,IT系统必须从根本上确保可用性,企业应当事先考虑到各种程度的风险,并采取相应的预防与保护措施,例如IT系统可用性计划与容灾恢复计划相结合就可提供更高等级的可用性。IT应用成熟度各有差异,对IT系统可用性的需求层次也各有不同。一般可分为四个阶段:第一阶段的主要需求为系统级可用服务,如主机可用服务、单点故障修复等;第二阶段的需求重点在于容灾恢复,如数据备份和恢复;第三阶段的重点在于信息生命周期管理、ITSM等服务管理;第四阶段则是企业追求的是业务弹性,如SOA架构、BS7799(《信息安全管理实施细则》)安全标准等可用性。
高可用性IT系统策略
李国平说:“常言道,凡事预则立,不预则废。这在IT系统可用性上也同样适用。CIO要时刻记住:IT系统的目的是让人们可以利用它来处理业务问题。因此,CIO应该要充分利用IT系统的可用性技术,来保护企业用户的关键业务应用能不间断运行,这点我有如下的体会。”
制定合适的可用性目标。一个IT系统的可用性是其自身软硬件与其所处IT环境综合作用的结果。因此,IT系统的可用性也应从这两个方面去分析。为此,首先要制定IT系统可用性的目标,然后再根据可用性目标来选择自身软硬件和其所处的IT环境。
减少外界环境因素的影响。提高IT系统可用性的方法与措施有很多。一般地,应根据IT系统所处环境可能会面临的具体进行分析,从而针对引起或影响系统不可靠的因素采取不同的处理措施。这些措施包括尽量减少引起系统不可靠或影响系统可靠的外界因素。例如,为了抑制电源故障而采用的UPS技术、隔离技术、屏蔽技术等,或为了保证机房温度而加设自动冷却空调等。通常这类的措施使用简单,而且效果也较好。但对系统可用性的提高也是有限的,许多情况下并不能满足IT系统高可用性的要求。
提高系统预防和自动修复故障的能力。实践证明,尽量提高IT系统自身预防能力和自动修复故障的能力是一个重要的可用性措施。例如,针对系统自身故障而采用的冗余技术、备份技术等。实践经验表明,采用备份系统是提高可用性最有效的方式之一,备份系统可根据具体情况分为在线备份系统和后备备份系统。这类措施的使用可以更进一步提高系统的可靠性,往往在高可用性的系统设计中被广泛使用。
制定故障应急预案。即使在设计上已经保证了系统的可靠性和可用性,并且设置了系统运行主动预警模块,但故障的出现还是不能100%避免的。因此,根据故障处理的指导原则,以最短的时间完成故障的处理和系统的恢复,就必须建立IT系统故障应急预案。包括故障点的快速确认方法、故障数据收集、处理和恢复的详细步骤,从而保证在故障处理时能够游刃有余。