关注硬件质量
购买高质量的服务器而不使用质量低劣的设备,是提升服务器长期可靠性的一种很明显的方法。“这里还存在着一个决策上的差异,你是希望迁移到更长寿的硬件呢,还是希望升级到更高级的服务器,”IT服务商E-N电脑公司的运营经理Jeffrey Driscoll说。
不过在真实世界中,预算紧张的经理们常常要面对这样一种痛苦的抉择:是要用低成本的产品去满足需求呢,还是应该购买更好、更可靠的系统去适应已经确立的一些性能指标。到底该怎么办?
Driscoll建议应该聪明地购买,可以去找优惠的产品,但只要有可能,就应该去做企业管理层的工作,反映现实世界的运营需求。向管理层表明质量低劣的服务器可能导致财务风险是一个不错的主意。“这是一个可用简单的数字和一些预测便很容易证明的观点。”
知道何时该当机立断
有时候,了解一些简单的常识也可能是保障服务器正常运行时间最大化而又无须突破预算的最佳方法。“硬件就是硬件。到了某个时间,它总是会损坏的,”Gabiam说。“所以重要的是要了解发生了什么问题,然后准备好一个计划,一旦问题再次发生时就不会手忙脚乱。”
利用常识同时也意味着要知道什么时候该当机立断,减少损失,向新的设备转移,而不必去管按常规是不是到了替换周期。“如果你的IT人员经常要花费25%的时间去忙于到处救火,支持早已过时的系统的话,那么谁还看不出来这是巨大的时间浪费呢?”Beddoe反问道。
尽管让服务器的正常运行时间最大化会产生一些额外的工作量,但是大多数IT经理都认为最终的回报会远大于体力的支出。“很难说花在正常运行时间上的哪些努力会是白费的,”Luludis说。“你所做的任何事情都是会有帮助的。”
Beddoe认为,努力争取最大的正常运行时间,几乎都会保证创建一个更可靠的数据中心。他主张一个“积极的环境”——一个持续不断地激励工作人员去确认并遏制那些可能引起任何危害的潜在问题的环境,这是保障服务器正常运行时间最大化的关键。“17年来,我们从未发生过影响到客户利益的重大宕机事件。”
最大化服务器正常运行时间的六个步骤
1 仔细规划。强力实施生命周期管理,并对这项任务进行双重检查,包括系统配置和维护日程安排。服务器的采购和升级应有详尽规划,并与系统的可用性和性能相协调。
2 实施定期的预防性维护。这也许是支撑服务器可靠性的最容易和痛苦最少的办法。正如旧车修理业常说的那句告诫语,“现在掏钱维护要比将来掏钱修省多了。”
3 使用管理和监控工具。如果没有适当的监管,你就不可能找到导致服务器正常运行时间不高的根源,也不可能测量宕机对关键业务的影响。
4 提升安全性。不要让攻击者干扰你实施正常运行时间最大化的目标。防恶意软件产品、防火墙和独立审计是能够对服务器正常运行时间产生正面作用的诸多安全工具和实践中的几种。
5 购买高质量的硬件。质量低劣的服务器是通往宕机之路的铺路石。
6 尊重常识。千万别去浪费时间、人力和金钱,一心想从老旧的、经常出问题的服务器上榨出最后一点儿利用价值来。