搬次家扒层皮 老外谈数据中心搬迁问题

在过去两年里,我很荣幸参与了130多个数据中心的搬迁,在这期间,大部分项目我都全程参与了整个搬迁过程,包括调研,制定搬迁计划,调度和物流计划,目标数据中心准备等,无论其中哪一环,都有潜在的或不可预知的麻烦破坏你的搬迁行动,有些未考虑到的隐患可能会成为数据中心搬迁成功致命的威胁,因此预先了解数据中心搬迁过程中可能面临的风险,制定最好的应急计划对于成功搬迁非常重要。

困难重重 不搬不行

我注意到很多组织在真正开始搬迁之前,都不太愿意将钱花在搬迁计划设计上,根据我过去100多次成功的搬迁经历,总体搬迁成本中只有很微小的一部分是用于规划的。

老实说,数据中心搬迁既讲科学又讲艺术,但规划只讲科学,你必须知道移走任何电缆、网络设备、服务器、存储卷、数据库、应用程序、服务或人员将会带来的影响。

 

 

规划数据中心搬迁通常会先由IT或数据中心运营部门起头,近年来,随着IT业的发展,数据中心的设备越来越多,耗电量居高不下,产生的热量对制冷系统也提出了严格的要求,许多数据中心的基础配套系统几乎总是高负荷运转。

这个现实是驱动数据中心搬迁的主要动力,在中小型数据中心,如机架数小于100,IT设备通常是随意放置的,最初可能是按照某种逻辑分组方式放置的(如按应用,部门或功能),但随时间推移,新增IT设备可能就不会严格遵循以前的逻辑放置了,也可能是按原来的逻辑根本没有摆放位置了,因此时间久了,谁也说不清哪是哪了。

如果中间某条线路出现故障,很可能会引发连锁反应,导致大面积服务中断。制定数据中心搬迁计划时会严重依赖于数据中心现有的说明文档,那些文档中未描写的地方就只能依靠管理员和业主头脑中的记忆,以及设计人员自己的经验了。

搬家方法多种多样

搬迁的方法有多种,但通常使用下面三种方法:

1、升降式搬迁

这是最简单的办法,先验证系统工作是否正常,然后对系统进行备份,备份成功后关机,再用运输工具搬运到目的地,在目的地安装好后加电启动。

2、摇摆式搬迁

这个方法比较复杂,必须在目标数据中心建立临时系统,然后从源数据中心向目标复制数据,数据转移完后将源数据中心设备关闭,装箱运输到目标数据中心。

如果从源数据中心运输过来的设备在目标数据中心工作正常,临时系统的使命就算完成了,当运输时间超过企业容忍的最长停机时间时,一般会采用这种方法。

3、逻辑搬迁

逻辑搬迁法不会移动物理设备,一般是针对虚拟机的转移,或者是将原来的物理系统迁移到虚拟平台,这种搬迁方法需要在目标数据中心建设虚拟机托管平台,执行P2V(物理到虚拟)转换,或直接转移源数据中心的虚拟机(VM),但在规划逻辑搬迁时,必须列出源和目标的映射关系,特别是VM数量较多时,需要编号加以标识,同时还需要测量VM的工作负载,落实到每台物理服务器上托管哪些VM,是否需要集群等。

一般说来,应先从逻辑上搬迁应用,数据库或虚拟机等,然后再搬迁物理设备。

没用的该扔就扔

许多组织发现有些设备不用转移,因为这些设备可能已经抵达其生命周期的末尾,也可能是因为通过虚拟化被取代了。

通过装箱演习可以明确哪些设备需要搬迁,哪些不需要搬迁,需要什么设备进行周转等,从而计算出目标数据中心需要准备多大的空间,电力和制冷容量。

此外,目标数据中心可能需要另外购置机架,因为从源数据中心拆卸,装箱,运输到目标数据中心再安装,完成之后再安装设备,这样整个搬迁过程耗时可能会很长,一般情况下是不允许有这么长的停机时间的。

有些公司可能会保留源数据中心的全部机架,在新数据中心统一部署更先进的机架系统,如带传感器的机架,不仅外形更加美观,在安全性方面也有质的飞跃。

在设计新数据中心时,应该将现数据中心暴露出来的缺点仔细研究,想法避免或克服,并汲取其它优秀数据中心的设计精髓,提高新数据中心的服务能力。

一个需要特殊考虑的是线缆(OSI 1层),数据中心搬迁一般会重新规划和部署新的线缆,在这一环,必须注意线缆的颜色选择和标记,明确每个机架的线缆来源和走线路径,以后进行故障诊断和排除故障时,一个小小的标签就可以节省大量的时间。

运输途中小心磕碰

与做计划比起来,实际执行搬迁可能更加痛苦,特别是要找对物流合作伙伴,包括装箱,搬运,卸载等都需要仔细和认真,与搬运一般的耐用品不一样,稍有不慎,如摔倒,倒置等都可能损坏设备,此外,还应该制定精确的调度计划和执行时间表,总之要管理和协调好搬迁的物流工作。

 

调度需要与业务部门和最终用户做好协调工作,制定调度计划时必须考虑业务容许的最大停机时间。

当应用程序或数据库脱机时就算开始停机了,总的停机时间包括搬迁设备,执行和验证备份,复制数据(需要时),关闭系统,装箱和运输,重新上架和初始化需要的时间,在这个时间表上,还需要有相应的回滚计划。

许多设备厂商都提供了搬迁服务,包括重新认证服务,但也有部分厂商的系统需要厂家工程师关机和初始化,这可能需要一定的上门服务费用。因此出现了专门的数据中心搬迁服务公司,选择原厂搬迁服务还是选择第三方搬迁服务就视具体情况而定了,一般说来第三方的搬迁服务成本相对要低一些。

对设备投保和安全运输也很关键,前面已经提到,数据中心设备都需要小心轻放,有的特殊设备还需要特殊包装,如防静电和电磁辐射,为此有必要对重要设备投保,寻找有经验的装卸和运输人员也很重要,选择合适的运输工具和运输路线也很关键,一般应选择集装箱式的车辆和路况良好的运输路线。

数据中心搬迁现状

在过去的两年里,我发现数据中心搬迁的需求越来越多,预计未来数年会一直延续这种趋势,因为IT系统的急剧增长导致早期建设的数据中心被迫提前退休,我这两年看到搬迁的数据中心大多服役了10年,一个典型的商业建筑规划使用寿命也就20年,而且今天的设备功率密度在7-10年前是不可想象的,有些分析家预测以后单机架的功率会超过40kW,除非你现在的数据中心已经能达到那种要求,否则再过几年你的数据中心就会被迫搬迁了。

数据中心搬迁是一个高风险的行动,规划阶段工作做越细,实际执行时遇到的问题就会越少,风险也越低。

从开始规划到搬迁完毕都需要调集集体的力量,要知道每个人都与此相关,发挥集体的智慧才能将事情做好,同时应该成立一个由企业领导和各部门业务骨干组成的搬迁委员会,定期召开例会,公布最新进展,部署下一步工作计划,协调各种资源,让搬迁工作在一个有序组织的环境下顺利开展,搬迁成功的机会才会更大。