太平洋保险数据中心搬迁百日攻坚战

经历一年多的考察,2008年3月,中国太平洋保险(集团)股份有限公司(以下简称太平洋保险)新一代数据中心选址上海市徐汇区田林路201号,由漕河泾仪表电子工业园区内一个旧厂房改造而成。

2008年5月,旧厂房改造装修工程启动,太平洋保险内部称之为“201”装修工程项目。招标公告显示,“201”装修工程项目一期投入资金1500万元,二期投入7000万元。

按照规划,建成之后的太平洋保险新一代数据中心,总建筑面积7500平方米、净机房占地面积3000多平方米。

实际上,在2005年,太平洋保险就曾在上海南汇区建设了一个数据中心,规划满足3~5年内的使用需求。然而,仅仅2年多时间,南汇数据中心就显得捉襟见肘,电力供应不足、机房容量饱和,难以满足业务增长和集团IT建设的需要。

南汇数据中心投入使用之后的几年间,太平洋保险的业务量几乎呈直线型增长,与此同时,太平洋保险从2001年起逐步规划实施的集团IT大集中和信息化整合,也不断取得新进展。

“当时,我们要从分布式的IT架构逐步转向IT大集中,并在2006年成立了集团层面的IT运行中心,恰好赶上业务迅速增长,一时间所有的压力都集中到了数据中心。” 太平洋保险(集团)股份有限公司信息技术总监黄雪英说。

“为了缓解南汇数据中心的饱和压力,原本计划用于办公的南汇数据中心三层,被改造为机房。”太平洋保险(集团)股份有限公司IT运行中心总经理徐建国说。不过,这些努力都未能本质上改变南汇数据中心的饱和压力。

“我们还尝试过计划租用一些外部机房以缓解南汇数据中心的紧张局面。”黄雪英说,“但是,经过一番寻找,我们发现根本没有符合要求的机房。最终我们认为只有现在的废旧厂房可以满足机房尺寸、高度各方面的条件。”

在新一代数据中心所在的田林路旧厂房改造装修的同时,由集团总裁亲自挂帅、各业务部门领导组成的数据中心搬迁领导小组也宣告成立,黄雪英则担任工作小组的负责人。这使得搬迁项目启动之初,就已在组织上得到了强有力的保障。

2008年5月,太平洋保险新一代数据中心搬迁项目正式启动。数据中心搬迁工作小组随即进行应用系统梳理及基础架构设计,并在2008年10月份完成应用梳理,2009年5月份完成基础架构设计。2009年5月中旬开始数据中心基础架构搭建,7月份完成系统开发测试的搬迁工作,8月20日生产机房开始正式搬迁。

从2009年9月11日第一次系统试点切换,到12月19日新一代数据中心的关键应用系统全部实现安全迁移,太平洋保险只用了100天的时间,就完成了南汇数据中心到新一代数据中心的安全搬迁。

对于太平洋保险来说,新一代数据中心搬迁,并不仅仅是一个单纯的物理搬迁过程。

在此之前,必须对现有的180多个系统进行全面梳理,找出系统之间的逻辑关系,以确定这些系统的搬迁顺序。

“借此机会,我们希望将这么多年IT系统重新梳理,对于太平洋保险的IT基础来说是一次划时代的革新。” 太平洋保险(集团)股份有限公司信息技术总监黄雪英说。

早在数据中心搬迁工作启动之初,太平洋保险就对整体数据中心搬迁工作进行了详细规划。在历时一年半的项目规划中,系统应用梳理和基础架构的设计无疑是耗费时间最长的阶段。

从2008年5月数据中心搬迁项目启动到2009年5月,太平洋保险IT团队用了整整一年时间,完成系统应用梳理和基础架构的设计。

据太平洋保险(集团)股份有限公司IT运行中心副总经理程平介绍,基础架构的设计主要是针对机房空间、供电、散热、安全和虚拟化应用的考虑;应用梳理是从未来集团信息化管理角度对原有各类应用从项目角度进行梳理,理清相互间的关联关系。

系统应用梳理和基础架构设计工作主要分为三大阶段:2008年5月开始系统应用梳理;从2008年底到2009年5月,完成基础架构设计(网络隔离、虚拟化监控、数据备份等);从2009年5月份到2009年8月,新一代数据中心完成硬件设施的搬迁以及新数据中心生产系统的正式启用。

运维难题

一直以来,太平洋保险IT团队的工作重点都放在信息系统的建设,从支撑业务的角度完成一个又一个项目,并没有真正对所有的信息系统做过一次详细梳理,弄清楚系统之间的逻辑关系。

“在没有进行数据大集中之前,太平洋保险与大部分金融企业一样,整个集团的IT架构是分布式的,直到2006年才正式成立集团层面的IT运行中心,而IT运行中心成立前,运维、开发混在一起,没有进行专业化分工,这都为以后的系统建设埋下隐患。”黄雪英说。

早期开发的一些系统,并没有形成固化的开发和运维流程,相应系统与其他系统的关联关系也往往没有形成严格的文档。由于很多都是开发人员参与后期运维,文档不全、权限不清的状况在短期内并没有给运维造成太大障碍。后来,由于IT员工的更替,了解相应系统开发过程的运维人员越来越少,让IT运行中心逐渐感受到了运维的压力。

“在日常运维过程中,我们经常发现虽然系统能用,但以前的文档都找不到了,系统开发人员也不在,很多运维人员经过第二轮、第三轮的接手,对于整个系统并不清楚,出了问题更是无从下手。”程平说。

在系统应用梳理过程中,程平发现,有很多老系统,参与过开发的IT人员早已不在,经过运维人员一代一代传下来,对于系统如何开发、存在什么问题等等都不知道,这就造成了很多“黑户口”的存在。一个系统可能不仅仅跑了一个应用,由于当时资源紧张等特殊因素,很可能其他一些应用也寄生其中。这些问题伴随着开发人员一波一波地更替,逐渐被人们淡忘,为以后的生产系统埋下了隐患。

“黑户口”的存在,正好解释了一些日常运维中出现的让人啼笑皆非的“诡异”现象。当某个系统关闭之后,有时候会出现一些看似毫无关联的系统随之不能正常使用的现象,原因就是这个系统内部寄生了一些其他应用。

事实上,不仅是太平洋保险,在众多信息化建设开始较早的企业中,这种情形时常发生,却很难解决。在没有太多外部成功经验可供参考的情形下,太平洋保险希望解决“黑户口”问题,无疑是一项充满挑战的工作。

流程化管理

“对180多个系统进行梳理,相当于对所有系统在新平台上重新做一次上线工作。IT团 队一方面要忙于既定的工作,另一方面需要对原有系统重新梳理,制定手册,在系统梳理那段时间,大家经常轮换加班。”程平说,“虽然压力很大,但是大家普遍 认为这是一件非常有意义的事情。”

IT运行中心投入大量精力做应用梳理,理清每个应用部组件的关系,建立一整套CMDB关系体系,并设立信 息变更流程,所有信息由应用部门统一管理。当项目信息还没有报批的时候,相关的信息就已经进入CMDB中。从项目的分解到应用的所有者再到应用负责人所有 信息都会在CMDB中呈现。

经过近一年的努力,太平洋保险IT团队对180多个应用系统都做了手册,把原来缺失的文档补齐。使得手册真正可以交付 给生产、运营中心去做维护。

“我们在这个过程中花了大量的心血,我们不仅梳理了各个系统间的相互关系,更把所有系统都以文档的形式做成手册,并在新 一代数据中心按照手册实际模拟演练,为以后的系统切换奠定了坚实的基础。” 太平洋保险(集团)股份有限公司IT运行中心总经理徐建国说。

与 此同时,IT团队针对新平台开发了许多新功能、新应用,对整个系统做了一次升级换代。通过建立开发手册,开发出来的系统直接交付运行中心部署、实施。“在 这个项目中,整个集团IT线条高度一致,目标明确,仅用了一年时间就完成了基础架架构的设计和应用系统梳理工作。”徐建国说。

手册中对开发 人员的权限做出了严格限制,过去,很多开发人员有生产环境的权限,相互间的关系难以理清。通过此次新一代数据中心搬迁的契机,太平洋保险对开发人员和运维 人员进行了严格的专业化分工,开发人员只管开发,运维人员根据开发手册负责运维,开发与运维之间通过文档交付,真正做到专业化分工,流程化管理。

“此 次数据中心搬迁,不仅仅是一次技术升级,更是对IT从专业化管理角度进行了一次全方位升级。”黄雪英评价道。

经过一年半时间的应用梳理和基 础架构设计,2009年9月11日,太平洋保险新一代数据中心项目正式进入最为关键的系统切换阶段。

然而,究竟是选择传统的物理搬迁方式还 是应用迁移的方式,新一代数据中心项目团队又一次面临两难抉择。物理搬迁适用于小规模搬迁,耗用资源少,但存在很大风险。应用搬迁风险小,有回退余地,适 合大规模重要生产系统的搬迁,但需要庞大的资源支持。

此次搬迁涉及180多个系统,各系统之间关联性又很强,一次整体搬迁过去,难以成功。 在此之前,南汇数据中心采用的是物理搬迁方式,但此次新一代数据中心搬迁以应用导向为主,太平洋保险最终决定采用应用迁移的方式。

分批次搬迁

搬迁模式的难题刚解决,项目团队又遇到了更大的挑战。

由于采用应用迁移方式,需要大量硬件资源,同时工作 繁杂且工作量巨大,需要分批次逐步搬迁,造成在一段时间内两个数据中心同时都是生产中心。

“两个数据中心同时需要维护,还有大量搬迁测试工 作,相当于一下子工作量变成了平常的3~4倍,系统搬迁切换的3个月我们基本上早晚连轴转。”IT运营中心副总经理程平说。

按照原定计 划,2009年5月需要完成基础设施搬迁,但是由于恰巧赶上梅雨天气,基础设施搬迁直到8月份才完成,这就使得整个项目工期推迟了3个月。为了在预定期限 内完成搬迁任务,项目团队不得不将系统切换时间压缩到3个月。

此外,已经搬迁的应用和没有搬迁的应用都需要做广域网连接,如何保障这些系统 稳定性和安全性,也是项目团队重点考虑的问题。而对需要搬迁的系统进行科学的批次划分,无疑是确保稳定性和安全性的重中之重。

经过再三思 考,最终项目团队决定将180多个系统做个相互关系表,但发现系统之间的关系很紧密难以切分。于是,项目团队将所有系统做成矩阵模型,通过数学方法找出哪 些系统关联关系最强,最后分成了5个批次切换。依次是示范应用批次、第一批次财险的核心系统、第二批次寿险的核心系统、第三批次集团核心系统以及第四批次 次要系统。

为了避免数据大规模在广域网上传输,项目团队决定将财险系统与寿险系统分开搬迁。此外,由于第一次系统搬迁没有经验,期间可能会遇到很 多问题,项目团队将第一次系统搬迁定义为示范搬迁,选取5个具有代表性的系统。其他批次的系统搬迁数量都在25~30个系统之间。

“第一次示范搬迁 的5个系统是我们精心筛选出来的,整个搬迁涵盖财、寿集团系统,有利于项目团队熟悉搬迁流程,同时也包含大型核心系统以及四川分公司老系统的搬迁。”程平 解释第一次示范搬迁5个系统的用意。

示范搬迁涵盖整个系统搬迁的方方面面,项目团队希望在第一次示范搬迁过程中,尽可能消化掉所有可能出现 的问题,为下一阶段的搬迁做好充分准备。

“当时整个集团筹备H股上市,已经到了最后的攻坚阶段,作为IT部门我们必须要给财务提供准确的报 表,如果9月11日第一次示范搬迁不成功,报表不能如期出来,整个上市会受到影响。”IT运行中心总经理徐建国说。

为此,项目团队在集团核 心财务系统搬迁上做了很多准备工作和应急方案,并且在财务系统切换当天就做好应急系统的维护,一旦搬迁不成功可以短时间内迅速恢复原状。

IT “赶考”

“新一代数据中心搬迁,是集团2009年两大风险项目之一,所以整个集团高度重视。”徐建国说。集团专门成立了由集团总 裁亲自挂帅搬迁领导小组,具体工作则由信息技术总监黄雪英领衔的工作小组负责,工作小组成员则涵盖了财险、寿险等众多业务单元的领导。

搬迁 领导小组全面审议每一次数据搬迁计划,定期召开搬迁工作会议,评估和管理搬迁工作的风险,并做好应对准备,落实IT设施的安装和配置。

有了 集团总裁层面的支持,搬迁工作小组对所有基础架构有足够控制能力,对资源有充分的准备能力。在系统搬迁过程中,虽然领导看到的是每个系统切换的最终时间, 但是背后每个系统都有一张详细、复杂的搬迁流程以及每个环节的具体时间。集团总裁更是对项目组明确要求:“要保证项目的万无一失,要对业务运行零影响。” 工作小组作为此次项目的主导者,在搬迁之前立下了“军令状”。

首先,项目团队讨论搬迁方法,通过前期的应用梳理明确每个系统对应的负责人以 及相关业务负责人。每个应用都可以找到对应技术上的负责人,业务决策上也可以找到应用负责人以及所属部门。

例如:财务系统的搬迁,影响范围 有多大,数据是否要修改,应用的应急方案等具体事项都由财务部门确定。所有要素界定清楚后,整个项目团队会做一个统一的模板以及流程模板。

同 时,项目团队制定了统一的流程模板,每个系统搬迁都会根据流程逐步实施。项目搬迁时,首先会给应用负责人一个流程,系统从切换准备到完成切换一共需要50 多个步骤。例如:第一个步骤需要信息确认,确认的内容,谁来确认,具体需要哪些人来配合,交付指标是谁,如何完成交付。第二个步骤是新环境的搭建,第三个 步骤是模拟测试,所有的工作每一个步骤分解到具体的负责人。每一步操作都会有指定的标准,每个应用负责人根据这些标准来执行。

虽然领导看到 的是最终系统切换进度,但每个系统都有自己的时间点,形成180多个系统庞大的矩阵图。每个项目的切换流程都一样,只是时间点不同而已。为了有效分配资 源,当一个系统在做功能性测试的同时,另外一个系统可以进入生产测试环境,每个应用由专属负责人负责整个搬迁过程,保证系统顺利切换。

“我 们将此次搬迁看作是太平洋保险IT团队的一次‘赶考’,项目组扮演校长的角色,我们要对整个升学率负全责。但校长不可能代替学生去考试,可以有很多模拟 题、很多学习的环境,但每个系统必须自己考,清楚自己的流程。”程平这样形容此次搬迁工作。

标准化流程

在 每一次系统正式搬迁之前,已经经过多次搬迁测试,工作人员很清楚搬迁的时间,同时对于搬迁过程有一定的把握。该系统需要多长时间的搬迁,回退时间是多少, 预估理想启用时间是多少,都会有一个明确的时间表。并且对外公告中,所有时间都会在前期模拟基础上留有一定冗余时间。

“一开始大家对于搬迁 都是估算,心里没有底。我们制定科学的搬迁流程及详细的搬迁进度表,使得所有的系统搬迁都严格控制在预定时间内,随着每一次搬迁的成功,越到后来大家越有 底气。”徐建国说。

所有批次的搬迁一般会选在周五晚上7点钟开始搬迁。所有系统切换分为技术上的影响时间以及系统回退时间、对外公告时间。 每一次的搬迁基本上都会在周六凌晨搬迁完毕。“如果这个期间出了问题,我们可以用周六、周日来做弥补,这样对于周一正常营业没有任何影响。”黄雪英说。

为 了明确每个系统搬迁的时间进度,项目组做了一个EPM指挥系统。系统会将搬迁任务分成几个环节,并且下发给各环节工作人员。应用切换指挥中心会收集所有信 息,并把切换任务书下发给工作人员,第一次切换中五个系统按照指令依次实施。

首先所有的业务系统启动应急方案,业务系统会有一个反馈,表示应急系统 已经准备好,整个过程由指挥中心控制衔接。每一个系统经过确认后都可以随时进行下一步切换工作,当系统技术确认以后,紧接着进入应用停止阶段,随后是数据 备份。

第二阶段是对数据的迁移,把生产上所有数据转移到数据中心,数据经过核实后进入应用恢复阶段,所有的应用会相应启动。这个过程中会对 所有配置进行调整,甚至包括客户端的指向。接下来进入技术验证阶段,所有运维人员负责验证技术,紧接着是业务的验证,业务人员会从分公司、总公司各个维度 进行验证。

第三个阶段是启动公告流程,这时候所有分公司都知道这个系统已经作为生产系统在运行。随着公告流程的同步,系统顺利切换之后,南 汇区数据中心会停止该系统备份,转接到新数据中心备份。

整个项目指挥中心设在陆家嘴的太平洋保险总部,总指挥中心团队负责搬迁环节的衔接步 骤。每次搬迁不仅有详细的流程,更做好充分的准备。系统切换如果出现重大问题可以按照回退机制返回,每次实际切换前都要经过多次试切。

工作 人员对每个系统回退的时间都很清楚。每个系统切换之前都会经过文档整理、验证、模拟测试、生产测试、数据切换模拟、业务演练等各个环节,同时太平洋保险也 设定了一些关卡使得切换更加科学、有序。

第一个是文档关卡。不管系统是从中途接进来还是自己开发设计,对于开发人员来说必须要有准确的设计 文档描述该系统。包括运行资料、维护手册,所有信息必须齐全。第二道关卡就是功能性测试,需要对前面所有文档进行验证。项目团队会派没有技术背景的人员来 验证系统,来测试系统是否可以顺利运行。

“这个检测非常有效,实际操作中,很多系统在开发环节使用很顺畅,一旦进入验证阶段,就发现系统无 法顺利交付。说明此前文档只是一个形式,不具备任何功能,文档还是停留在开发人员的脑子中。”程平说。

“一开始在这个环节中耽误了很多时 间,经过不断的磨合,系统真正变成了是可交付的,在生产测试阶段验证和最终搬迁完成后的系统是一模一样的。”徐建国说。

个别系统在生产中还 会要求压力测试,应用没有问题后会进行数据模拟切换。但所有方案做完后,每个系统需要至少做一次真实的数据迁移。第三道关卡是工作人员掌握需要多少时间完 成系统切换。正是经过前期多次模拟演练和测试,使得正式的系统切换中,没有发生一次意外。

业务应急预案

搬 迁的成功源于前期周密的规划与部署。在最初方案制定上,项目团队花了很大精力权衡分配各个系统。每个系统切换时都会有应急预案,指导一旦出现问题该如何应 急处理。由于不同应用系统涉及不同业务人员,需要业务部门也要做出相应的业务应急预案。不管是IT团队还是业务人员,在每个系统搬迁前都要经过模拟演练。

“我 们把90%以上的精力都放在正常流程搬迁上,只有通过不断的模拟演练才能预见到各种问题,保证正式搬迁的成功。避免在细节上出现失误,尤其是容易被忽视的 细节。”黄雪英说。

随着一次次预演搬迁,搬迁计划也在不断调整中,更加接近实际搬迁情况。项目团队做应急预案被看作是理所应当,但如何让业 务部门配合应急预案,成为了数据中心迁移过程中又一个难题。

作为CIO和项目工作小组负责人,黄雪英花了大量精力去说服财险、寿险等业务部 门,要求业务部门制定相关业务应急预案。

“过去集团对于业务连续性有一个整体要求,但是如何落地,需要业务部门的配合。经过此次实际演练, 业务部门真正认识到业务应急预案的重要性,财险、寿险领导还提出以后每年都会定期对业务部门进行应急演练,确保IT系统一旦发生问题的情况下,业务有序运 行,并把这种应急方案在集团内部流程化。”黄雪英说。

2009年12月19日,太平洋保险新一代数据中心的关键应用系统全部实现安全迁移, 这标志着新一代数据中心正式完全投入使用。

为了明确每个系统搬迁的时间进度,太平洋保险新一代数据中心搬迁项目组做了一个EPM指挥系统。 系统会将搬迁任务分成几个环节,并且下发给各环节工作人员,每一次切换都会按照指令依次实施。

业务系统启动应急预案

整 个过程由指挥中心控制衔接,每一个应急系统经过确认后,进行下一步工作,开始应用停止阶段,随后是数据备份。

数据迁移

把 生产上所有数据转移到数据中心,数据经过核实后进入应用恢复阶段,所有的应用会相应启动。接下来进入技术验证阶段,所有运维人员负责验证技术,紧接着是业 务的验证,业务人员会从分公司、总公司各个维度进行验证。

启动公告流程

所有分公司都知道 这个系统已经作为生产系统在运行。随着公告流程的同步,系统顺利切换之后,南汇区数据中心会停止该系统备份,转接到新数据中心备份。

2009 年12月19日,太平洋保险新一代数据中心关键应用系统全部搬迁完毕,标志着太平洋保险为期一年半建设的新一代数据中心正式投入使用。

全新 一代数据中心总建筑面积7500平方米、净机房面积3000多平方米,该机房顺利通过多次性能测试、压力测试、生产测试以及第三方专业测试,各项指标达到 国际要求,全面满足太平洋保险未来5年的业务发展、客户服务以及集中运行的需求。其中一些关键技术甚至达到业界领先。

多项新技术

“太 平洋保险新一代数据中心是按照“战略规划、政策制定、风险管控、资源统筹”的原则统一规划设计和建设而成的,它为集团公司及其各专业子公司提供全方位的信 息技术服务。”程平谈道。

该数据中心可以满足未来3~5年的发展需要,每个阶段的建设都遵循“安全、节能、环保、符合公司实际”的原则实 施,其中一些关键节点甚至达到业界领先水平。

太平洋保险新一代数据中心在设计和实施时按国际上普遍遵照的美国UPTIME INSTITUTE TIER4标准和国家计算机机房规范中最高的A级机房标准执行,系统的容错性大为增强,单一故障造成的系统整体宕机事件被有效消除。

新 一代数据中心在空调系统设计和实施中充分考虑绿色节能技术的运用,大大降低了数据中心的整体耗能,节约了运行成本。机房空调系统采用智能化设计,实现了对 机房内多台机组的集群控制,操作人员可以根据机房负荷变化,控制机房空调运行,实现能效管理。新数据中心大楼还采用独创的冷通道封闭节能设计,提高了空调 的制冷效率,降低了耗能。

在电气设计中,数据中心采取“双总线、全冗余”的线路铺设方法,同时在物理上充分考虑双系统的分隔。在建筑平面设 计上也充分配合此要求,UPS 配电间成对布置在不同消防分区中,在每层平面的东西两端成对布置强弱电井道,以分开布置两个系统的桥架。这种设计方法有效提高了电气系统的安全性和节能效 果。

在安全保卫系统设计中,数据中心设计人员按照“全覆盖、无盲点”的设计原则,确保符合安全规范。在综合布线设计中,光缆系统全面采用预 连制光缆,链路质量较传统现场熔解方式有大幅度提升,同时减少了跳线频繁插拔而造成的人为失误,提高了系统整体可靠性。

运维水平 全面提升

凭借此次数据中心搬迁,太平洋保险优化原有运维流程并对IT基础设施全面升级。太平洋保险吸收了国内外保险业信息技术的 先进经验,对公司IT基础架构现状进行了全面评估,有针对性地对服务器、存储、网络、安全、备份、监控进行了优化设计,并且在新数据中心建设中进行重新构 建,有效提升了公司的IT基础设施能力。

对照业界标准和国内外金融业先进的IT运维管理实践,太平洋保险对IT运维管理进行了优化。通过对 公司现有IT运维流程现状评估,提出多项改进建议,并且对改进建议进行排序,制定了分阶段实施的路线图。

公司信息技术中心还利用此次系统搬 迁的契机,对应用系统进行全面梳理,完善了原有应用系统资源库,并制定了应用清单和组件清单的变更管理方案, 指定专人管理,通过CMS/CMDB同步发布信息,对于特权帐户进行集中控制,变更规划与实施分离。这些措施有效改善了太平洋保险的IT运维管理能力。

“作 为新一代数据中心,不仅要满足业务不断增长的需求,更需要IT部署灵活、迅速并实现高可用性的目标。”太平洋保险(集团)股份有限公司IT运行中心副总经 理程平说。

现今的数据中心是一个资源共享的中心,为了更加地贴近市场和客户,提供个性化、差异化的服务是保险企业在竞争中取胜的法宝,要求 IT必须具备对业务需求做出快速反应的能力。面对众多的开发需求,从用户提出新需求到提供满足需求的保险产品,整个开发周期同过去相比大大缩短,这就意味 着留给开发人员开发部署的时间更短。

“因此,开发团队的压力会直接传导到IT基础架构上,随着设备越来越多,系统越来越复杂,开发周

期 越来越短,有限的人力如何快速响应,需要IT具备高度灵活性。”程平解释道。

此外,金融业对于IT系统的应用程度越来越高。例如太平洋保险 的银保通B2B系统,IT已经从支撑企业内部发展转向整个社会外部,过去是业务人员与客户打交道,IT用作内部信息处理,而现在IT直接与客户接触,IT 系统甚至是太保与客户接触的一个窗口。更对IT提出7×24小时不间断服务,一旦宕机,整个保险业务都会受到影响。随着业务对IT依赖的不断增强,对于系 统的稳定性、高可用性提出了更高要求。

迂回的抉择

作为太平洋保险数据中心的负责人,程平多年来一直关注 虚拟化技术。在他看来,“虚拟化只是一个概念,如何在企业中落地,并不需要面面俱到,如果能够很好解决某一方面的问题,就值得去做。”

在新 一代数据中心投入使用之前,太平洋保险对X86平台上的虚拟化应用进行了深入的探索,并得到了IT团队的广泛认可。但面对新一代数据中心搬迁工作,很多人 反对在这个时候应用虚拟化。原因很简单,面对数据中心整体搬迁,同时上虚拟化,变动太大,恰逢集团筹备H股上市的敏感时期,如果出了问题,后果难以想象。

但 程平却坚持一定要在数据中心搬迁之前上虚拟化,“因为虚拟化本身并不是买一个软件就可以解决所有问题,需要对原有IT架构做很大的调整来适应虚拟化的要 求,而数据中心搬迁恰好是我们调整的一个机会,如果这个时候不上虚拟化,以后调整起来会很困难。”

经过多次权衡、抉择,最终项目团队认为要 借新数据中心建设的契机,搭建相对完整、体系化的虚拟化架构,而不再是以往的零敲碎打。在新一代数据中心搬迁之前,整个数据中心架构按照虚拟化的要求来设 计。

“任何一个软件都有优缺点,经常会发现厂商的测试报告和实际用户感受不一样,说明企业往往在很多情况下把一个好的产品不恰当地去使用, 或者说根本不懂怎么用。”程平说。

对此,太平洋保险在应用虚拟化前期,花了大量精力进行测试,了解虚拟化的优缺点。尽可能扩大优点,弱化缺 点。通过大量的测试、分析,针对虚拟机在内存、I/O、资源分配的特点,对X86平台的采购技术方案进行了大规模调整,量身定制了适合虚拟化解决方案的整 套硬件、网络部署方案。在实际生产部署时,成功避免了可能出现的性能、稳定性问题。