Erin Watkins 发表于:14年07月09日 20:12 [转载] TT中国
数据中心高可用性:“五个九”意义有多大?
高可用性对于IT生命来说很关键,但是对于很多企业来说,所谓的“五个九”,也就是99.999%的情况下正常运行时间不是必要的。
这99.999%的正常运行时间是否必要,取决于很多方面,从软件限制到成本支出等等。
Linux开发者,以及High-Availability Linux计划的奠基人Alan Robertson说:“如果事情达到一分钟几百万上下,或者事关人命,那么你需要‘五个九’。”
衡量高可用性的成本
达到高可用性的代价是“四个九”或“五个九”,包括软件、硬件、人力和培训。组织需要衡量这些花费,对比一下意外宕机的损失和安排停机时间的能力。虽然有的公司是一分钟几百万的业务,但是像是股市这样的单位是很容易安排停机时间的——只要不是在交易时间就行,Robertson说道。
根据最近Emerson Network Power对41个数据中心的调查来看,意外宕机最大的损失来源于业务中断和收入减少。某组织的应对方式是——查清问题,修复,然后让系统还原备份,然后运行,这也需要花钱。
Sander van Vugt是荷兰的一名独立培训师和顾问,他打比方说,某工作站拥有99.99%的正常运行时间,可以预测每年会有8.76小时的宕机时间。如果每小时宕机的代价是1百万美元,总共就是876万美元。但是如果是99.999%正常运行时间,每年宕机时间将少于1小时。这样的话,提升正常运行时间是值得的。
Wayne Gateman建议各个公司考虑清楚:“对于任何需要权衡成本的产品,需要考虑宕机会对你带来什么?对对宕机的承受能力是多少?接下来有什么风险?”
van Vugt说,“五个九”适合在想零售或者Web托管这种大容量组织,而对于线下工作站,“三个九”足矣。
达成“五个九”的正常运行时间
某些行业,比如交通行业,高可用性是至关重要的。比如说在荷兰,如果因为一个电脑的故障导致所有列车停驶,那么就会有数以万计的人正常生活受到阻碍。
Gateman建议这种情况下,需要高容错的服务器,多冗余包括服务器硬件自身、故障转移软件和分离物理服务器以强制故障转移升级的软件,这些能让服务器容错,值得拥有。
在配置容错服务器之前,Gateman的公司使用基于软件的故障转移工具,来保持产品环境运行,但这不总是符合预期。
Gateman建议:“软件毕竟是软件,不能每次都解决问题,比如在硬件出问题的时候。如果有内置的冗余,虚拟中心就不会每次都受到故障侵扰。”