DoSTOR分析 医院将灾难恢复站点用于日常运营

概述

一个灾难恢复站点可以同时有两个用途吗?位于缅因州Bangor的St.Joseph医疗中心的首席执行官Eric Nelson的回答是肯定的。通过完全部署服务器及存储虚拟化,这家提供多种服务的拥有超过1000名医师、护士及支持人员和超过30个部门的医院,不仅利用它的DR设施来进行故障复原,而且还用于日常业务,产生了可观的经济效应和资金节约。

背景:挑战

一切都开始于大约一年以前,当时Nelson的数据中心的存储容量已经不够了。Nelson说:"我们使用戴尔"。几个机架的服务器的使用时间都已经接近三到四年了,而且由于日益增长的医疗应用程序,该组织需要更多的空间。同时这时还建立了一个DR站点。这个DR站点通过该医院自己的光纤网络,使用一公里外的可用空间。

同时,该组织还运行着一个EMC Symmetrix DMX800来用于数据存储,但是,"我倾向于惠普",Nelson承认道,"我们起初有一个EMC SAN(存储局域网),而且为了复制我的存储,我需要购买另一个EMC系统,但是我不愿意这么做–我是非常倾向于惠普的。当时,我还可以选择购买两个惠普阵列,并且将EMC放在存储角落里并忘了它。无论是哪个选择,其成本都比较高"。

实施

Nelson先做第一件事情。他的小组决定用50个HP BladeSystem服务器替换掉戴尔服务器。Nelson说,这减少了主数据中心中几乎一半的机架空间。然后,他们在10个物理服务器上安装了一个VMware ESX 3.5,以便虚拟化105个服务器(总的服务器数量是155个,包括105个虚拟服务器)。

同时,Nelson将EMC Symmetrix DMX800迁移到了新的DR站点,在那里它处理14TB的存储。他购买了一个HP StorageWorks 8100 EVA来用于他的主数据中心,那里拥有26TB的存储。两个站点的被VMware扩充的服务器都被连接到SAN阵列,连接网络是基于McData和Brocade交换机的光纤通道。

如何在这种设置下分配应用程序,Nelson的团队费尽心思。一些使用SQL数据库的医疗应用程序没有被虚拟化,这是因为,Nelson说:"SQL是非常耗电的"。他没有采用虚拟化,而是运行一个独立于VMware的1TB的SQL数据库服务器集群。Microsoft Exchange服务器也没有被虚拟化,而是运行它们自己的服务器。

同时也没有被虚拟化的还有Citrix应用程序。

那么Nelson虚拟化了什么呢?行政性和技术性应用程序,基于IP的支持系统,主控制系统,以及DNS(域名系统)。一些文件服务也运行于VMware之下,这些文件服务是基于自制的包括Windows文件集群在内的NAS(网络附加存储),实施于BladeSystem服务器上。通过St.Joseph医疗中心的1GB秒以太网局域网,这种NAS设置被插入到SAN中。

灾难恢复站点

那么Nelson就有两个站点,一个是基于惠普的阵列,另一个是基于EMC。当Nelson或他的团队将一个系统放到维护节点或者发生故障的时候,通过VMware HA(高可用性),服务器应用程序可以故障复原到其中一个或另一个站点。其他的系统,比如Microsoft Exchange,则包含它们自己的复制路由。但是一个SAN不能够对其他的SAN进行备份。

于是,这位首席技术官就去寻找可以在两个SAN阵列之间执行同步镜像的交换机,当然价格要"合理"。这并不容易。在他的价位内,大部分的系统只能执行异步镜像。最终,他选择了一个来自Sanrad公司的iSCSI(互联网小型计算机系统接口)交换机。

这需要一些调整。Nelson承认"在iSCSI上处理高事务量的数据库,对我来说有些头疼"。但是在尝试和纠错之后,他终于对新系统有了信心。现在,唯一不在两个站点之间的iSCSI上运作的应用程序是医疗归档,后者只处于主站点上。

经验和教训

现在,Nelson的团队已经让他们的这个负载均衡、双站点的系统投入运行超过两个月了。主站点的空间被合并到一半,而且通过将灾难恢复站点投入日常业务,提高了投资回报,减少了保护成本。但是Nelson的做法会有什么不同吗?

他说,不。但是他承认道这个项目的关键难点之一在于过度使用系统的风险。他指出:"我必须确保我在每个站点都有足够的容量来处理所有事务"。

Nelson希望有一些工具能够帮助他进行容量规划,但是发现没有一个适合他的应用程序的。例如,一些医疗程序一周只运行一次,但是它们运行的时候非常耗费容量。因此,这个团队必须一边尝试,一边纠错,来决定每个站点可以处理多少容量,以及在某些特定时间这些数字会有什么变化。

在将数据从一个站点迁移到另一个站点的时候,容量评估是特别麻烦的一件事。他说:"我们通过虚拟化将服务器复制,然后迁移数据"。这是一个非常具有挑战性的流程,因为医院所有的应用程序都必须一周七天一天24小时可用。

但是付出得到了回报。Nelson和他的团队已经建立了数据连续性和保护,无需为了热备和冷备而投资于第二个数据中心。维护流程也不会影响到任何其他事情。将灾难恢复站点用于日常业务也使得成本降到了可控水平之下。Nelson说:"我们可以做到精益"。