让工具发布警示
Beddoe使用了Uptime软件公司的正常运行时间软件,他认为这种工具很重要,因为它们可以在服务器的状况超出某个阀值时,例如内存超载或者CPU的使用率过高时可以发出警示。
虽然大多数工具都内置了警示功能,但Beddoe强调说,还是应该寻找一种可配置警示触发条件的产品,例如一旦超过预设的阀值便可发送电子邮件或手机短信的产品。“你需要有意义的警示信息,以便可以采取必要的措施纠正这种情况。”
Walter Beddoe,Six Telekurs负责IT和后勤的副总裁,他说,“17年来,我们从未出现过影响到客户利益的重大宕机事件。”
汽车服务公司Carfax的运营经理Jerry Gregg说,重要的是要了解,不少性能测量工具计算出的正常运行时间只是一个近似值。“这样的数值,充其量只能用来参考。”
Gregg观察到,一些初步的正常运行时间测量工具得出的数值实际上可能引起误解,因为这些工具不能正确地区分如下两种情况:周日清晨睡眠时间发生的一小时长的服务器宕机和周四下午正运行关键业务进程时的10分钟的系统失灵。这也是为什么应该购买那些可提供全时、基于事件分析能力的测量工具的原因。
为了让正常运行时间分析更有意义,Gregg决定选用可以显示服务器崩溃对关键业务服务产生何种影响的测量工具。Gregg采用了BMC的ProactiveNet性能管理软件,该软件可直接将服务器宕机时间与销售交易和其他类型的面向业务数据进行关联。“可以让我们用美元而不只是用时间来量化服务器的宕机事件。”
该软件所生成的信息可帮助他确定宕机事件是否会威胁到企业的盈亏底线,为购买新服务器、更好的网络设备或其他可靠性增强技术及服务的预算做辩护。“如果没有这样的信息,你就只能在无法真正了解运营成本的情况下进行成本效益决策,”Gregg说。
别让黑客“盗取”正常运行时间
在保障服务器正常运行时间方面,安全也会发挥重要的作用。假如服务器遭遇恶意软件攻击,或者网络路径不安全,那么服务器宕机是毫不令人惊讶的。“需要从物理安全起步——也就是数据中心的建筑开始,首先保障其物理安全,”Beddoe说。
其次,要建立服务器的访问规则,并予以强制执行,同时,还要强制执行安全程序、防病毒程序、防火墙,培训遵纪守法的管理员,都是非常重要的。Beddoe说,“所有这些要素在服务器安全和提升正常运行时间方面都发挥着同样的重要作用。”
为IT咨询及客户软件开发商Superior科技解决方案公司监管服务器运营的John Luludis说,要想真正让服务器的正常运行时间最大化,超越基本的安全实践是很重要的。Luludis强烈推崇定期的独立安全审计。“我监管的网络必须定期进行渗透测试,之所以要这么做就是要让我的网络尽可能的安全,而且最好从外部看也是安全的。”
保护你的数据
尽管Princeton Radiology的Howard也强烈信奉定期的服务器维护,但是他也指出,经理和员工再怎么努力也无法避免一定量故障的发生。要想防范因服务器失效而导致的任何数据损失,Howard建议制定数据保护计划,并将其整合到企业全面的业务连续性战略中去。
Princeton采用了来自Compellent科技的场外存储解决方案,复制器所有已存储的数据。“即便有一个灾难恢复数据中心,我们实际上也得在主要设施之外运行一些服务器,所以我们需要双向备份数据。”
Raoul Gabiam,华盛顿大学的IT运营兼工程设计经理,他认为生命周期管理是服务器正常运行时间规划的一个内在组成部分。
华盛顿大学的Gabiam则仰仗内置于网络基础设施中的负载均衡技术来防范服务器可能出现的突然宕机。“假如一台服务器崩溃或者某个应用不响应,那么网络流量就会重定向到其他服务器,相同的服务器也能处理这一工作负载。”
和Princeton的Howard不一样,Gabiam比较看好集群,采用了Novell的集群服务来提供附加的冗余层。如果集群中的一个节点失灵,或者有停机维护的需要,那么在该节点上运行的集群应用或者某个服务组件便可无缝地迁移到集群的另一个节点上去运行。
这个迁移进程可以配置成手工失效备援或者自动失效备援。“一般而言,在硬件或软件失效时,应该让应用自动失效备援到下一个备选节点上去,”Gabiam说,不过管理员也可以在某个特定节点须执行维护任务时,手动将应用迁移到另一个节点去。