新形势下光大银行从科技运维向科技运营转型的最佳实践

8月8日,主题为“新技术下的IT管理和能力提升最佳实践”的“第三届国际最佳实践管理联盟中国年会”在北京召开,来自IT、通讯、金融、互联网等行业的CIO/CTO及IT管理者约200人参加了本次年会。

近两年,ICT领域内技术变革的速率之快呈现出前所未有的态势,新技术和新理念的快速迭代冲击着各类大型组织,也为IT管理在各行业的实践带来诸多挑战。本届年会通过案例分享、圆桌对话等形式,共同探讨了新技术下的IT管理和能力提升最佳实践。

中国光大银行股份有限公司信息科技部运维中心运行服务处处长王岗进行了“新形势下从科技运维向科技运营转型的探索”的演讲,介绍了光大银行科技运维的转型探索,这也是ITSM Master中国首期优秀项目之一。

图片14中国光大银行股份有限公司数据中心运维处处长 王岗先生 做ITSM Master优秀案例分享

当前,金融业科技运维面临着很多挑战,以银行为例,由于整体经营环境的变化,银行已经从最挣钱的行业变得不那么挣钱了,加之互联网金融的冲击等等,这对银行业科技运维提出了新的命题:怎么样在降低成本的同时,科技运维还能以更高的速度和效率投产、变更并控制风险?以及如何结合云计算,合理正确评估IT的价值?

长期以来,尤其是从数据大集中开始,金融业在IT方面逐年投入巨资,并通过流程、制度,形成了很好的IT风险管控的文化,但恰恰是这种文化,使得IT的投产周期非常迟钝。

那么,在新的形势下,科技运维要怎么应对?或者说怎么转型,才能适应当前的新环境和需求?业务到底需要什么样的IT?业务到底需要IT什么样的服务?IT的成本是不是能够说清楚?效率是不是得到有效的提升?

10多年来,银行的IT在飞速发展,很多行都是几十人,到了几百人甚至更大的规模。但回过头去思考,对于一个组织,IT的贡献是什么?能够控制风险,仅仅只是一部分,其实,IT对业务的质量,对成本的有效控制,对内部的高效的提升,这些都是要通盘考虑的。

王岗说:“光大银行想走的一条路,就是从科技运维向科技运营转型,从IT的支持者向服务的提供者、合作伙伴的转型。IT要一个更均衡的发展。”

在这个体系下光大银行提出了整体科技运行的模型,就是均衡的发展模型,基于成本、质量、效率、风险的一个模型,这个模型就是用一个雷达图来去看运行的整体情况,最终与组织发展、组织的战略达到匹配,实现质量的提升、风险的可控、成本的清晰和效率的提升。

以下为王岗演讲实录:

谢谢振鹏!不用英语讲了,很有挑战。虽然考试都是用英文,但是真正想把一个实践讲清楚还要用本地的语言。而且给大家一个信息,我们现在Master这个课程中文是可以过的。

下面来讲一下我的第一个课程,这个课程不仅仅是ITSM Master里面的一个课题,这是我在今年的人行科技奖里面一个很重要的课题内容,也跟很多同业在交流。为什么会有这样一个思考?其实这不仅仅是一个简单的科技运维向科技运营转型,其实这个话题很多年前大家都在说,比如说科技引领业务等等一系列的词。

大家都在说我们要向科技运营去转型,怎么样去转?其实这里面也有很多跟ITIL有关的内容。从实践过程中,我们总结出来了四个词,就是基于质量、风险、成本、效率的科技运营的研究。

看一下我今天讲的内容,第一个,科技运维现在的一些挑战。目前来说,首先讲科技,其实我们要看我们的业务,尤其在金融行业,整体经营环境,今年上半年整个银行的利润增速已经到个位数了,甚至很多的行都到了1%点几,就是说大家公认的最挣钱的一个行业已经开始不挣钱了,其实可以想到我们的制造业,包括我们很多的服务业,现在整体的情况是什么样的。

包括现在互联网的冲击,大家讲到的P2P、余额宝,虽然这里面出现了很多问题,但是对我们传统的金融行业造成了很多思维、经营上的冲击。我记得大概是在2013年,我们行的一些高管们去了欧洲,发现当年汇丰银行在2012、2013年对标的企业已经不是传统的金融行业了,而是像Google这样的互联网企业。

互联网会带来什么?对我们的业务会带来什么样的变化?这几年对我们带来很多的冲击,包括科技引领者IBM,《Bank3.0》,也提出了很多新的思考。

在整体大的业务背景下,其实业务对我们的要求是什么?说白了,第一个,要便宜,成本要低。对于银行来说,这么多年整个的IT投资可以说非常非常庞大,每年几十亿的IT投资,到现在不挣钱了怎么办?IT要更好的花钱,就是能够说清你的成本在哪儿,成本发挥了什么价值。

第二个,互联网的冲击,对于传统的IT最重要的是快速、高效,在传统上我们的IT四平八稳,一点点投产、变更、控制风险的方式去做,那么快捷、高效怎么样去实现?

第三个,价值体现。价值体现一直在讨论一个问题,科技到底是不是直接创造了价值,我们总是想用金钱或者用货币去衡量科技创造价值,这里面和业务关联的东西,如何说清楚你的价值,不仅仅是钱,包括客户,包括市场,很多东西可以通过IT去做这种实现。

第二个层面,刚才很多人都讲到了云。云是不是新技术?个人的思考,云不是新技术,只不过是业内的同志们都开始玩跨界,传统上做服务器的厂商开始做网络,做网络的厂商开始做服务器,软件的这些厂商,原来都是各自守着各自的领域,业务领域、工具领域,现在开始玩开源了。服务呢?其实服务比较惨,服务现在开始玩低价。

在整个体系上其实云带来的冲击是非常非常大的,但是它并不是一些新技术,很多的东西是对传统东西的融合,给包括厂商,包括甲方的IT都带来了很多的思考、很多的变化,我们传统靠做项目这种方式去实现的,其实可能已经完全不适应在这种云的模式下继续去运行。

我们也有很多的考虑,云不可能一步替代传统的IT。在整个过程中一定是混合运营的模式,是我们一个长期的业态,一定是传统的IT和我们的云运行的模式是一种非常长期的业态。为什么?首先,我刚才讲到了我们这种非常大的IT,庞大的投资,我们能不能变化?第二,我们现在整个服务的体系,我们业务和科技之间的关系能不能变化?这些其实都直接影响到了整个云在科技运行中的发展。

讲完这两个背景,让我想起真正ITIL VR进入中国的时间,大概是在2002、2003年,其实ITIL开始进中国,中国领先的几个国内的项目,当年中行和工行是最早开始做ITIL的,我也是2002、2003年开始为中行去做ITIL。其实有两个时间点,大家会发现惊人的相似,第一个时间点,在2000年前后其实也是中国经济开始复苏的时候,1997年、1998年整个国企改革造成了大量的下岗,造成了整个经济的放缓。同时那时候有一个标志性的事件,工行的数据大集中,带来了整个科技运行和IT技术巨大的冲击。

第二个时间点,大概是2016年、2017年的时间段,其实同样是一个这样的情况,整个经济在下行,同时云技术,尤其是互联网金融、互联网服务在冲击着传统IT的运营模式。这时候其实我们的业务变化了,我们的技术环境变化了,我们的服务、我们的管理是不是应该发生变化。

这个前提下我们去思考金融行业,囊括了金融行业很多IT发展的一些目标。现在这个情况下,回顾我们整个金融IT,尤其是2000年数据大集中以后,大家首先想到的是风险,风险管控。而ITIL VR之所以在中国获得了如此大的成功,正是因为大家看中了它的风险管控能力,流程是在整个风险管理体系下重要的一个环节,也就是说传统的风险管理是靠流程、靠制约、靠一些数据来去说话的,而这时候数据并不是关键的内容。在整个运行的业态下,风险变成了第一要务,其他的变成了大家相对忽略的内容,就是我们不太关心成本,所以2000年到现在大量的IT投资,重复的投资,不管是大型银行、中型银行、小的商行,都是在做大量的IT投资。

第二个,反应迟钝。比如说大家都知道,其实很多银行的投产时间窗,1个月的、3个月的,很多很多,做大量的风险管控,同时监管也提出了很多风险的要求,对风险基本上一票否决的方式。所以整个在2000年以后到现在,银行的IT业基本上是在风险管控的体系下。

业务到底需要什么样的IT?业务到底需要IT什么样的服务?我的成本是不是能够说清楚,我的效率是不是得到有效的提升?整个10来年银行的IT都是飞速发展,很多行都是几十人,到了几百人甚至更大的规模。真正回过头来去思考,对于一个组织你的贡献是什么?仅仅能够控制风险只是一部分,其实你对业务的质量,你对成本的有效控制,你内部的高效,这些是要通盘去考虑。

我们想走的一条路,就是从科技运维向科技运营转型,从IT的支持者向服务的提供者、合作伙伴的转型,我们认为是要一个更均衡的发展。在这个体系下我们提出了整体科技运行的模型,就是我们均衡的发展模型,基于成本、质量、效率、风险这样一个模型,其实也是用这个雷达图来去看运行的整体情况,来最终与组织发展、组织的战略达到匹配,实现质量的提升、风险可控、成本的清晰和效率的提升,达到这样一个实际的效果。

在大的指导思想下,我们提出了一个很重要的观点:IT服务指的是什么?

这个其实我们做了很多很多的争论,尤其在数据中心,很多人认为是提供基础设施、提供网络服务等等,这些能够处理事件、能够提供变更、上线是你的服务。其实这块我们首先来提出一个非常重要的东西,什么是服务。对于一个IT组织,我们认为所有的应用系统才是你的服务,你所有其他的内部服务应该要围绕着整体的业务系统来去展开。

所以我们这样四层的关系,第一层,就看你的业务,从你的成本上可以去看业务,从给你相关部门提供的服务上可以去看业务,可以从你的风险管控上看业务,从不同的视角上可以去看你的业务。第二个才是传统上讲到我们的服务,就是传统技术服务的目录,包括我们的技术支持,包括我们的综合,包括应用的提供。下面是我们的管控层,管控层我们提出了很重要的一点,要清晰自己,就是怎么样建立自己的配置管理,这里面不简简单单是配置管理的体系,其实包括了更复杂的目标。最后一层,其实就是我们的决策层,就是整体的指标,风险、质量、成本、效率,整体的指标。这是我们落地的框架,包括人员、流程、工具、活动等等内容,套在我们整体框架里面去实现,把我们相关的流程都会最终落到我们整体的四个象限服务的体系下。

这是我们实际电子化落地的内容,包括我们的工具,也包括我们的相关流程,最重要的就是我们的指标体系,和我们的配置管理体系,其实这些都是来重建我们整体的管理体系和内容。

其实我们最核心的三个内容,第一个,就是我们整体的一个指标体系,对于我们整个指标体系,最终要去满足的包括我们的监管要求,包括我们的业务要求,包括最终的科技管理和整个组织管理的诉求,这些其实是我们建这样一个指标体系核心的目标,最底下其实是我们所有的这些相关的数据。我们的数据来自于哪儿?其实在这里面,我们不再简简单单的单一去提流程的指标、单一去提我们的架构指标、单一去提我们的性能指标,我们是将所有整个IT运行的指标进行汇总,把之间的相互关系,流程和我们运行的指标、流程和架构的指标,等等所有相关的数据进行整合,最终落到四个象限,就是我们的质量、成本、风险、效率这四个象限上,来去看我们最终想要达到的一些相关的内容,包括我们质量管理的要求,像我们整个系统的健康度,包括人员的质量,人员是不是能胜任,包括运维的质量等等这些都要做一些指标,包括风险管理指标和成本管理指标和效率指标。

这里面举一个简单的例子,最重要的做指标体系过程中,怕无效,为什么指标会无效?是因为往往做指标和用指标的是一套人马,往往考核流程经理的时候你的流程经理自己制定的指标,而且跟他的效益、跟他的工资、收入等等都会挂钩,这个时候他的指标数据往往都是虚假的,而且通过整体数据全面的去看,不是用一两个指标去看去体现。

比如我们在做知识管理的时候就有一个很有意思的指标,其实它跟知识管理没有什么太大的关系,我们叫做二线夜间接听率,是完全按照ITIL架构去建的,我们一、二线完全是分离的,我管的是一线的指标,还有二线的指标。我们有一个指标是二线夜间被呼率,我们非常希望二线处理很多事情,我们一线处理事情是靠知识和工具,这时候你的知识的有效,你的知识的贡献度,大家原来都用这样的指标去体现,我们这时候用了一个二线夜间被呼率,因为夜间一般二线都不在,所有的事件处置都是需要一线去做的。二线的夜间被呼率,就能够反映我现在的知识是不是有效,一线是不是有效的掌握了这些知识,来从客观的角度来去分析我们整体指标的运行。

第二个核心,就是我们的配置管理。我们配置管理的这套体系其实不是传统上的配置管理,包括很多工具,这里面用了大量相关的数据,包括传统原来像BMC、CMDB,我们用了一部分,实际上我们做配置管理的时候发现了很多很多的问题,我们在整体的思考是什么?是以业务视角,目前还没有做到业务视角,目前可以做到以应用视角,以应用视角串接整体的IT资产,包括所有的服务器,包括网络,包括机房等等相关的这些信息,同时包括大量的管理信息。

在这里面其实是有两层,第一层是你的整体管理信息,我们的管理信息为了保证它的准确性,基本上都是用流程去做整体管控,第二层,其实是我们运行的这些资产的数据,这些其实我们大部分都是自己开发的工具,保证能够搜索到,然后用一些关键值把我们从应用系统到最终数据中心整体的环境来去打通,在这里面会有不同的一些内容,而这个CMDB在我们最近一次很大的变更里面起到关键的作用。

我们做了一件什么事情?可能几年前没有人敢想的,我们把我们所有数据中心的每一个机柜的网络线路进行了梳理,而这个数据中心运行了多长时间?已经运行了14年,这个过程中靠我们这么一套信息,我们知道每个网络机柜连了多少服务器,每个服务器是什么,我们能知道每个计算机柜里面有多少应用系统,它的服务时间是什么,只有这样的一整套数据才能够去支撑你做这样的一个巨大的变更,我们整体的变更耗时2个月,现在基本上已经做了2/3了,马上应该做完了,原来都不敢去想象的一件事情。其实建一个机房很容易,真正去维护它是一件很难的事情,通过配比管理,是要清晰你整个IT运行环境是什么,同时为每个业务部门或者每个业务提供的整体服务资产是什么,就能够计算出你整体的运算成本。

最终我们还是要有流程管理的框架,所有的流程管理其实跟我们ITIL的体系没有本质区别,只不过是说,在座现在很多人是做服务的,很多是做咨询的,大家传统上更多是在实践变更这样的控制,我们还是去尝试了包括流量、灾备等等一些管控的流程,而且完全实现了相应的电子化。比如我们灾备是非常非常严格的流程,一年切换多少流程,每年切换的时候所有辅助工具要去配合什么,哪些团队要去做相应的配合,我们整体的流程体系,我们把大家不经常去碰的,更多的是在一些制度层面的流程也去电子化了。

第二个层面我想说一说我们传统的流程,我们的事件、我们的变更只是有原来说的这些内容就够了吗?远远不够,尤其我们变更管理的整个体系,其实在ITIL V3里不知道大家是不是真正去关注过一些内容,可能大家更关注于变更流程本身。比如说你的计划在整个变更中的计划,就是整体生产中心的调度能力是什么,我们在整体去做这个事情的时候,其实我们每一年有一个叫做大变更流程,每年初的时候会把整体的大变更列出来,同时我会有很多的生产活动的一些大的计划,包括我每年的灾备演练,我每年有4次灾备演练,整体机房的切换,包括我们重要设备的采购点,把他整体运行起来,你才可以做到整体变更计划的一个体系。

还有一个,比如说评估,大家怎么样去考虑这件事情,其实在我们整个体系里面,变更的评估是我们整体的变更核心,其他的其实并不重要,流程谁该批、谁该走,审批流程并不重要,整个体系里面我们建立了一套所有技术领域的评估体系,甚至我们现在还有一个业务领域,就是业务的评估,对一个上线、对一个投产相应的评估体系,所有的东西都会细节到每一个技术领域,比如数据库、中间件包括安全等等这些技术领域,我们一共有12个域大概180多个指标来去做每一个细节相关的评估。再比如说验证,这也是ITIL V3里讲的独立流程,可能一个投产、一个变更如何去做它的验证,包括像我们现在监控工具的进一步发展,其实我们就是一个验证的工具,我们现在实现了所有系统的一套标准化验证,而且我们下一步要做的是根据我们的场景来去做不同的验证。比如说我早晨开门可以去验证系统的运行,我变更完了可以去验证关键组件的运行,这些内容其实是我们传统流程里面要去做的事情。

整个体系大概就是这样,后面我讲过一些我们的实践,就不在这里具体的去讲了,跟大家去看一下,其实就包括指标的平台,包括服务视角的配置管理平台,包括整体的知识管理体系,怎么样有效的利用知识,一、二线知识的转换,包括SLA建立几个域,评估相应的服务指标,根据成本、质量、效率、风险建立SLA的指标,包括容量流程怎么样去做,我们容量是专门有不同的流程和相关的一些数据的预警。包括可用性也有相关的流程,风险度和健康度模型的建立。包括成本怎样去定价,其实我们的成本想做两件事情,第一件事情,资源的成本,通过CMDB已经做了资源成本的计算,第二个,其实我们是想做人力资本,其实成本主要包括这两部分,一个是人力成本,一个是资源投入的成本。整体通过我们的流程整套体系能够去估算我们所有人的工时,大概工时这样的体系,而且这套内容也是应用到我们整体的考核里面去,来去看人员效率和相关工作的体现。

这是我们适度成本的分析模型,我们把所有的人员工时和体系建立起来的,起码知道我做一个系统的日常运行是什么样的,会对所有的人去做相关的分析,这是一个外包人员,就是我们外包人员的分析图,我们每个月都会看我们外包人员的效率到底是怎么样的,是不是能够满足我们整体的发展要求,会对外包人员做动态的改变。

最后是我们的软硬提升,我们整体运维工作效率的一些内容,包括整体的自动化的体系。其实云的很多的内容,就是流程+自动化,更多的就是硬件、软件,传统范围里面也是这个思路,我们传统领域里面还是会大力的提升整体自动化的运行,不是没有云就做不了自动化,不是没有云就做不了标准化,其实两条路是一起往前走的,最终会走到同一个焦点上去。

最底下这块其实也是一个非常有特点的内容,就是我们的分级运维,我们真正的想把我们每一个今后交付的业务或者交付的业务系统,能够把它的等级和我的这个服务变成一个标准和规范化,甚至每上一个系统能够直接的知道我的资源投入是什么,我的服务投入是什么,整体的这样一个体系和效率。

内容就是这么多。最后讲句感受,这里面所有讲的内容都不是新内容,在ITIL V3都讲过,风险其实ITIL V3讲了风险管控,质量讲了ISO体系,成本和效益在它的指标里面都讲过,这里面做了这么多年,我觉得ITIL V3很多的编写者,我其实也见过两三个编写者,他们真的是大师,他们才能够配得起大师,他们在10年前看到了后面的内容,但是在真正的实践过程中大家的思考、大家去看的路,或者跟你的环境有关,或跟你的位置有关,真的把这条路走下去,他会形成一套最佳的实践。谢谢大家!