IT系统的可用性可以用单位时间内(一般以年计算)系统实际服务时间/系统约定服务时间*100%来表示,最高为100%。受限于技术能力和成本限制,任何系统都不可能获得100%的可用性,满足100%的可用性意味着必须针对任何小概率事件,包括正常维保、硬软件故障、操作失误、人为破坏、停电、洪水、火灾、地震甚至战争因素,都必须有不间断服务的解决方案,这对于任何一个机构而言不论从技术上还是成本上都几乎是无法实现的目标。
虽然很多IT管理人员和服务厂商在IT系统可用性的提升方面投入了大量的成本和精力,甚至可以说不遗余力,但实际结果却是各自为政,效果无法预期。这主要是由IT系统的复杂性所决定的,现在的IT系统服务可用性依赖于技术和管理的不同方面,包括:IT架构及运维管理、基础设施及管理、灾备建设及运维、安全及管理、IT治理等诸多子项,涉及网络、存储、数据复制、安全、监控、空调、电力等不同技术领域。
衡量高可用性IT服务能力的指标包括技术指标、管理指标、时间指标等,通过这些指标体系的建立可以帮助企业呈现IT系统整体的可用性水平,并通过测量与改进,不断提升高可用IT服务能力,以更好地保障业务运营的连续性、可用性,支持业务创新,降低总体拥有成本,提升服务质量。
图一:高可用性管理要素构成
不同的技术和管理领域中的风险既符合叠加原理又符合短板原理。从最终使用者的角度来看,任何一个技术或者管理体系造成的停机时间都会被累加,而不会被区分原因。但是从系统建设管理的角度来看短板原理也十分明显,如果一个系统每年会因为停电原因导致几十个小时的停机,那么投入大量成本来避免可能两年发生一次,每次造成15分钟停机的网络风险无疑是不明智的。而各产品和设备厂商提出改进可用性的方案往往都是从各自的技术领域出发,既没有统一标准也没有通盘考虑,改进方案往往也都是局部的,甚至在利益驱动下缺乏客观的基础。
建立可用性建设或改进目标,建立测量体系,并通盘考量各系统可用性等级,按照对系统整体可用性影响的大小和费效比、时效比综合安排各系统改进计划和改进方案,分步实施并进行持续的监控和改进,可以使IT系统的可用性稳定一致的满足于业务需求,而且可测量的可用性指标还可以作为衡量IT管理团队服务水平和质量的标准之一。
那么如何从整体上考虑并规划IT系统的高可用性呢,笔者根据IT规划的一般规律和高可用性的特点提出以下方法:
一、设定IT系统可用性目标
IT系统的可用性必须遵从于IT系统最终用户的业务要求,从这个角度来看,IT系统的可管理性和成本控制首先应依从于最终用户对于可用性的要求。
在需求调研过程中,应充分认识到不同业务功能的重要程度差异、不同业务功能中断对机构战略目标实现的影响程度、非IT替代手段的可行性和非计划中断的必然性、机构本身承受意外事件伤害的能力等方面因素,获取业务部门和服务对象的支持和理解。最终分析取得各系统的最大可容忍中断时间。在分析过程中,应充分考虑机构在经济损失、声誉损失和社会责任缺失等方面造成的损害和其承受能力,设定承受能力的阈值。机构在经济方面、声誉和市场方面社会责任和法规遵从方面的损失会随中断时间的延长逐步扩大,当超过某一特定时间,各方面的累积损失将不可接受,会对机构生存和战略目标达成构成不可逆转的影响,这个时间就是最大可容忍中断时间。值得注意的是,最大可容忍中断时间对不同的场景可能会有不同,一般而言不可抗力事件影响的公众和市场容忍度较高,法律赔偿方面影响较低,而人为责任事件公众和市场容忍度较低,法律法规方面惩罚性措施也更严厉。
通过调研评估最终得出得到业务部门和最终用户认可的系统的可用性目标=(约定服务时间-最大可容忍中断时间)/约定服务时间*100%。
二、了解可用性保障水平的现状
明确目标之后,还应该了解目前系统可用性水平的现状,找出差距和不足。对于现状的了解应从两个方面着手。一方面应对目前的IT架构和IT管理体系现状进行全面的了解和掌握(包括技术体系、逻辑关系、管理流程、管理制度、组织体系等)。为将来进行针对性改建做好基础准备。另一方面应充分了解目前IT系统的风险环境状况,通过历史事件统计、信息安全管理风险分析、基础设施风险环境分析和IT架构技术风险分析等,了解机构信息系统面临的威胁种类和发生概率,了解机构对不同威胁的防范措施的有效性,了解不同种类风险发生对机构的危害和影响程度等。最终获取按照风险等级排列的威胁列表、针对已经采取的防范措施有效性的评价列表,以及针对不同等级风险的处置方式建议等。
三、确定高可用建设和管理策略
可用性规划策略的制定应充分考虑现有系统的状况和资源状况,充分考虑机构的业务目标和发展计划,充分考虑技术现状和发展趋势,充分利用专业厂商的服务和资源共享,并结合IT整体规划目标制定IT系统可用性的实现和改进策略。
可用性规划的整体策略应该包括:
- 整体目标,包括:保障系统范围,整体可用性指标、计划达成的时间目标等
- 必须符合的政策和原则,包括:相关的政策法规要求,既定建设原则等
- 分解的目标,包括:各系统的可用性指标,时间计划分解和阶段性目标的确定
- 保障手段:例如,设备加固、设备冗余、数据备份、专业服务外包、建设灾备中心等
- 资源获取方式,包括:资金的来源和保障,组织机构的保障措施相关技术和设备、场地等资源的获取方式等
- 可用性指标的监控和改进的组织、流程和措施等
四、设计IT系统高可用性改进方案
IT系统可用性的改善和提高涉及技术和管理的各个领域,绝对不是一两个单纯的技术方案能够实现的。一般而言,可用性改进的方案中应至少包括:
管理体系改进方案,包括:可用性规划、执行、检查、改进各环节的目标、职责、流程和管理工具、管理方法,实现计划、资源投入等,如果需要,根据策略要求管理体系中还应包括灾备中心的管理体系整合。
技术体系改进方案,包括:主机体系、网络体系、存储体系、应用体系、安全监控体系等各分子系统的改进目标、技术路线、资源获取方式、成本估算等,如果需要还要根据策略要求规划灾备中心的技术实现方案。
此外,根据实际情况可能还包括,机房基础设施和服务资源获取方案,信息安全管理体系改进方案等。
设计方案完成后应组织相关领域的专家对各方案的可行性、可管理性、技术成熟度、可扩展性、可管理性、费效比等进行评估和修订。
五、高可用改进方案的分步实现
一般而言,可用性的改进计划应根据时效比和费效比排列优先级,根据方案设定分类分阶段招标,由专业厂商负责实施完成。对于复杂的可能需要多家专业厂商协作完成的综合性项目,应由熟悉整体规划和项目管理专业技能的人员组建专业项目管理团队,在整个项目周期中协调和管理整个实施过程,保证项目的实施质量和实施周期。
六、IT系统高可用性的维护和改进
IT系统高可用性目标的实现不是一两个项目能够完全解决的,随着业务的发展和技术的变革,IT系统的逻辑架构和功能,数据和配置信息以及其所处的风险环境等都会处于不断的变化当中,必须建立起持续的监控、改进流程和相关的规范方法,才能够保证系统的可用性目标能够得到保持并持续的改进。
相关的维护和改进工作至少应包括:
- 可用性保障措施的检查和测试。包括对冗余部件、冗余系统、灾备系统的可用性的测试和维护等。
- 可用性指标的持续监控和记录。应对可能或已经影响可用性指标的事件进行及时全面的记录,并实时更新目前可用性完成情况。
- 定期对可用性指标和事件进行回顾和总结。应建立有机构管理层和业务代表参加的可用性管理委员会,对可用性指标的达成情况和下一步工作计划进行讨论和确定,并审核前期工作计划的完成情况,统一决策并协调资源的调动。
- 对可用性改进建议措施的实施和跟踪。应由专门的人员负责可用性改进措施实施的管理和跟踪,协调资源并随时汇报可能遇到问题。
- 人员的培训和教育。影响可用性的事件并不会持续发生,但一旦发生必然会对机构运营造成比较重大的影响,熟练的有技能的人员是有效处置这类事件,最大限度降低对可用性影响的基础和关键。针对此类事件的培训和演习、演练是提高人员技能水平和熟练度的有效手段。应通盘考虑定期的、计划性的开展针对可能影响系统可用性事件的演练,包括本地抢修和灾备系统切换。
高可用IT管理是一个复杂的系统工程,包含了IT架构、基础设施、灾备、安全、IT治理等各个不同的技术和管理领域,在每一个技术和管理领域中又都有其自身的知识体系和方法体系,本文无法穷举,希望通过以上内容对企业CIO在构建高可用IT管理体系方面有所帮助,共同推进高可用IT管理体系的发展。