(连载)网络存储导论第八章:灾后系统恢复规划

    第八章 系统恢复

    8.1 灾难后信息安全的恢复规划

    在发生任何一种灾难时,都需要考虑各种形式的损失:


  • 物理设施(受损的建筑物、工作场所、计算机、库存)
  • 对设施的访问(报废的建筑物)
  • 信息(受损的磁盘和计算机)
  • 对信息的访问(没有远程数据库访问)
  • 人员(生产人员、支持人员、管理人员)

    8.1.1 要素分析

    一个全面的灾难恢复规划必须采取所有必要的措施来确保业务的长期顺利运行。这意味着必须研究和分析每个物理组件、每个软件组件、每个人力资源组件和每个业务流程,以及每个元素可以接受的风险程度。必须考虑财务和管理问题。有效的规划应当考虑到所有潜在的灾难,这其中包括自然灾害、恐怖袭击、网络灾难等。(请参阅附录A 中的关于如何准备和管理网络灾难的信息)此外,必须考虑到向规划的”备份”模式的转变。 “供应链”分析是一种有用的技术,可以用于恢复企业的物理资产。规划的这个部分应当阐明怎样处理不可用的生产或者存储设施、订单输入系统、发货、应收账款和支付系统、备用部件和客户服务。时间也是一个非常重要的因素。Gartner Group 最近建议企业将关键流程和应用的恢复时间缩短到24 小时以内,并将非关键性应用的恢复时间缩短到四天以内。

    应当将三种解决方案视为规划流程的组成部分。一个企业可以(1)构建它自己的冗余系统(例如,拥有两个独立的工厂,每个负责部分工作);(2)提前为需要在紧急情况下使用的设施签约(例如由某个灾难恢复服务公司拥有和管理的热点数据中心);或者(3)购买可以抵消由于灾难会导致的损失的保险(例如抵消为了满足紧急需要而租用设施或者购买产品、部件的成本)。对于大多数企业来说,没有哪一种单一的方式是最好的;最有效的方法就是综合使用上面这三种广泛的战略。

    主要设备的供应商是所有规划的重要组成部分。确保供应商拥有足够的部件、人员和资金资源,以便在发生大规模灾难的情况下迅速地帮助数据系统用户摆脱困境。

    灾难恢复规划的关键是如何有效地传达和执行这些计划。在灾难发生之间与员工进行有效的交流非常重要,这可以让他们知道如何采取紧急措施。Citigroup 的一位领导人在《Information Week》于2001 年晚些时候发表的一篇文章中指出:”如果数据系统用户不能正确地做到这一点,在灾难降临时数据系统用户的公司将会陷入一片混乱。如果不为灾难做好充分的准备,数据系统用户的公司可能会破产。”

    如果数据系统用户觉得制定一项有效的灾难恢复/业务连续性规划似乎超出了数据系统用户的能力范围,尤其是在内部专业经验十分有限的情况下,就需要专业人员的帮助了。

    8.1.2 信息技术构架

    从IT 的角度来说,一项全面的灾难恢复规划应当包含网络弹性、通信弹性和业务应用弹性。

    一个富有弹性的网络首先应当具有有效的设计和架构,可以提供移动性和安全性,并以专门针对高可用性而设计的平台为基础。在设计中,冗余有助于消除单点故障,而快速、自动的故障切换可以确保迅速的恢复。对于流量设计、负载均衡和服务质量(QoS)的关注将能够处理性能低下或者不符合预期的流量负载,这些负载可能会在没有故障时阻塞用户对于业务应用的访问。

    通信方面需要考虑的是语音和PBX 流量,以及数据流量。IP 电话可以作为语音通信的主要或者备用方式,而IP 联络中心则可以提高企业与主要客户和供应商保持联络的能力。最近的一些媒体报道介绍了一些将IP 语音连接作为通信的唯一方式,而放弃采用PBX 系统和电话交换机的例子。基于IP 的语音通信网络有助于提高移动性,实现员工的迅速调配–无论是到预先规划的备份地点还是到会议中心和宾馆房间中的”临时办公室”,都能迅速开展工作。

    在应用方面,重要的业务应用必须保持可用性,而关键的企业和客户信息必须能够迅速恢复。因此必须使用备用数据中心和异地数据备份和存储功能。(本文稍后将介绍如何通过WAN连接中心和终端用户)

    要获得成功,灾难恢复规划在IT 方面需要阐述的内容并不仅限于企业的数据中心。一个有效的计划至少应当涉及到:


  • 数据中心环境,包括服务器、存储、供电和HVAC
  • 用户环境(PC、LAN、应用和客户端软件)
  • 企业内部通信设施(建筑物内部、园区内部)
  • 外部通信设施(电信运营商服务和线路)
  • 管理(管理中心、帮助台、专业技能)

    灾难恢复公司Comdisco 在纽约市发生911 事件之后发表了一篇关于灾难恢复的报告,中指出:”恢复工作的效果绝大部分体现在业务终端用户身上–即计算的终端。通常这些业务终端用户环境并不享有像数据中心那样的连续性规划。”

    除了上面介绍的IT 因素以外,规划还应当考虑到,在灾难发生后的很短时间内,电子邮件、网站、电话、专用线路的使用率可能会大大超过平时。此外,由于网络中可能需要加入新的地点,网络流量的使用模式也会发生变化。

    规划还应当阐明,除了更换所损失的物理资产以外,企业在一次灾难之后很可能立即需要的多种不同类型服务的来源。这些服务可能包括:


  • 保护和安全服务
  • 残骸清理服务
  • 抽水和相关的清洁服务
  • 清理HVAC 系统、管道等
  • 从受损的介质中恢复数据
  • 为员工提供后勤服务

    网络的复杂性使得企业很难实现业务的弹性。在制定针对业务连续性、保护和灵活性的计划的过程中,复杂程度越低越好。最大限度地减少提供设备的供应商的数量和去除无用的旧设备是实现这种网络简便性的关键步骤。