8月8日,主题为“新技术下的IT管理和能力提升最佳实践”的“第三届国际最佳实践管理联盟中国年会”在北京召开,来自IT、通讯、金融、互联网等行业的CIO/CTO及IT管理者约200人参加了本次年会。
近年来,ICT领域内技术变革的速率之快呈现出前所未有的态势,新技术和新理念的快速迭代冲击着各类大型组织,也为IT管理在各行业的实践带来诸多挑战。BCI亚洲分会主席,BCP创始人与执行董事余绍强介绍了新加坡电讯业业务连续性管理的精彩案例。
余绍强认为,无论是什么行业,在做BCM的时候,应该以后果来做断定,是考虑人员短缺的问题、中断的问题,到最终考虑到底选址的问题、员工的问题、数据的问题还是设施的问题,相对来说,针对后果来做会好做一些,因为原因千差万别。
BCI亚洲分会主席 余绍强先生 分享新加坡电讯业业务连续性管理最佳实践
根据自己的职业经历来看,余绍强认为,电讯业是BCM相对比较难做的一个行业。这是因为,电讯业面临的几个挑战比较特殊,首先是中断时间以分钟计,其次是数据中心建设成本高,恢复策略不同,第三,由于影响广泛,所以监管更严格,第四是行业集中度更高,决定了人才培养困难,人才特别是高级人才流动会带来业务的巨大影响。
余绍强表示,电讯业做BCM,有几个关键点必须把握好:
首先是范围,做BCM的时候怎样决定什么东西在BCM要考虑的环境里面,什么东西是不考虑的,因为电讯企业规模往往比较大,不可能都放到BCM里面,因此范围是一个很关键的问题。
其次是最低的业务持续服务或者是最低的业务持续目标,而且最低能够达到的目标必须符合合约上的承诺、必须对市场上的承诺。
第三是关键活动,就是没有了这些会影响大家的正常操作,而不是说日常环节大家伙都做的工作就是关键活动。对这些进行优先次序的排列。
第四就是中断时间,确定中断时间的时候必须实际,必须考虑什么是最大可承受时间。
以下为余绍强演讲实录:
大家早上好!我在准备案例的时候就想,以什么行业介绍这个案例?我本人做BCM大概20年的时间,不同行业都接触过,最早期是在电讯业做的,跟着就到了银行、医疗,好多行业都做过BCM。
最近国内比较热的话题,因为行业开始认证了,但是不管认证做不做,都不考试,我们都上了一门课,上了课之后也不考试,读的再用功也体现不出来你究竟多好、多努力。这种情况下,可以认证和不可以认证有一些差别。最近在开始认证的时候也发生另外一种问题,当我想认证的时候把BCM的项目做好了认证,认证了之后没办法恢复,这种情况下对你的声誉好还是不好,我还没认证至少可以说这个工作还没做,所以没办法持续,因为我知道明显缺了这一块,可是做了这一块之后我还是没办法持续,就变成了另外一个误区了。
这次我们谈就用电讯行业作为一个案例。这是我们新加坡的团队,2000年的时候成立,中间站的是我们BCI全球的主席。
这是我正规的介绍,我做什么?基本上只做BCM,没什么特别有讨论的空间,比较一般。这是今年6月份时候做的BCM认证,今年6月份的时候我们第一次做了,原本只是想在中国只做一届TPP,我纯粹只是讲师。
如图,这个是我们欧洲的一位作者写的,这是今年年初的。
这个是比较不正规的,这是“口袋宝宝”,全球风靡口袋宝宝,这是我口袋宝宝上的简历,口袋宝宝昨天刚刚登录新加坡,前天星期六的时候我一早的时候我女儿就把我吵醒了,为什么呢?口袋宝宝开始了,在家里找口袋精灵可以装,跟着很勤劳的告诉我说,今天我们应该去城里,去城里周边走动的时候才能抓到不同的精灵,这是口袋宝宝做的。
当然这是题外话,为什么讲这个东西呢?因为我们做任何工作都要有趣、都要生动,如果你做一个工作只是纯粹为了做这个工作而工作,每天朝九晚五,每天9点钟你上班,跟着午休,下午回家,你这个生活是很没趣的,所以你做任何东西都必须有趣,所以怎样把你这个工作变得有趣呢?这个是很关键的,特别是我们在座做IT的,IT的BCM也好,肯定不是全世界最有趣的东西。
这是我今天要讲的几个议题,第一,我很快的给大家介绍一下BCM,跟着我会跟你讲一下,在电讯行业本身有哪一方面的挑战?在座有没有电讯行业的?我们可以讨论一下。然后再看一下做这个项目的时候我们遇到的问题,我建议的一些解决方案,在座这么多人,100多位同事在这里,肯定有更好的例子,我们也可以一起来分享一下。最后看一下究竟做BCM之后有什么好处。这是我今天要讲的。
我前面几个PPT很快给大家讲一下什么是BCM。做BCM关键的问题,大家在考虑BCM的时候都是考虑起因。什么是考虑起因呢?就是什么造成灾难?所以很多的情况,大家分析风险的时候你是分析风险的后果还是分析风险的起因,火灾是起因,什么是后果呢?后果是你没了你的办公场所,你没了人员,没了基础设施。
你要以起因来做断定,还是以后果来做断定呢?如果以起因的话,有1001个起因。可是在BCM角度看到底什么是后果呢?最终后果是考虑人员短缺的问题、中断的问题,最终我们考虑到底你选址的问题、员工的问题、数据的问题还是设施的问题,相对来说如果BCM针对后果来做的话会很好做。
这是BCM我们在ISO22301或者我们的国标30146号文里面对BCM的定义,当然我今天不能展开来说了,这是22301本身标准的框架,所以我很快给大家铺一个点,到底什么是BCM。
到底什么是业务持续管理?我们来看一下电讯行业,究竟电讯行业有怎样的挑战?我早期在银行业上班,好多人都说银行业的BCM是最难做的,在座有没有银行业的同事?金融业的同事?金融业的BCM难做吗?我在金融业大概10年的时间,其实金融业的BCM不难做,为什么呢?因为金融业里大家最关注的问题是钱的问题,你把这个钱明细都弄清楚了之后好多东西都能考虑清楚,当然金融业也考虑声誉的问题,你能告诉我哪家企业不考虑声誉的问题吗?每家企业都考虑。
在BCM里面我们考虑几个问题,我想问你们,如果说金融业你们银行的ATM中断了你在多久的时间内会知道?你们多长去一次ATM提一次款?不会每小时提一次吧?一天提一次?也不会。一周一次?有可能。有的人一周提一次用的钱,有的人一个月去一次,有的人固定的数字,我提大概的数字用完之后下次才去提钱,当你要下一次服务的时候ATM没办法运作,你可能就会很担心。在新加坡ATM的恢复时间,央行要求4小时,当然我想问你们,你如果在ATM排队的时候,前面有一个人,你在后面等着,这个人好像把ATM当成他的iPad还是iPhone在玩,你会等多长时间等的不耐烦?
我可能2分钟也等不了。如果中断的时候银监会要求4小时,你会在那里等4小时吗?可是你提不了现金,4小时的话会影响你的正常生活持续吗?不会。相反的,如果说我们一个水源中断,多快你会知道?当你需要用水的时候,你大概几小时会接触到水?可能每个小时你上洗手间的时候就会知道。
如果你的手机业务中断的时候,没了信号多长的时间你会知道?有人告诉说我5分钟,有人告诉我说下一次我要看手机的时候,你多长看一次手机啊?对我的女儿来讲,她是几秒钟,15秒、30秒看一次,有的人是几小时看一次,所以业务持续对电讯行业来讲一个最关键的问题就是,他的恢复时间远比金融业要来的更短,为什么呢?因为有一些是说造成不便的,有一些是造成业务正常去持续的。所以你会看到,在沟通方面,电讯行业有一个很大的沟通问题,为什么呢?因为多数的电讯公司他们的人员都是以千或者万来计算的,而且分布的地方比较广。当一个中断的时候,不一定就是总部,而且他们要上升的人数也相对来说比较多。
客户先知道还是高管先知道?客户肯定先知道。你想,银行如果说是他的ATM中断是客户先知道还是高管先知道?高管会先知道,因为你系统中断了,内部上升的流程肯定比外面传的信息要来的更快一点,所以沟通方面长、而且复杂,是一个很大的问题。很多的情况内部的人员跟外部的人员顶多是在同一时间知道,你没办法比外部的人员更早知道,所以这是电讯行业的一个挑战。
另外一个是策略,策略方面,你想一下如果一家企业建立一个灾备中心,国内早期我大概2000年开始进入中国的时候讲盖灾备中心,好多人讲说有这个可能吗,盖灾备中心就为了3年一次或者5年一次中断盖一个灾备中心,可是今天你看多数的金融业都会有同城、异地有这种概念,相反的电讯行业能够盖一个同城、异地吗?很难,我在这个大楼,这里有一个电话的交接站连接我这个大楼,你没办法从另外一个交接站拉一个光纤多我的大楼来,因为这样成本太高了,全球里面所有的电讯公司没有这样干,这是另外一个挑战,所以他的成本要求很高。
有人可以融资去建一家银行,很少人会融资建一间电讯公司的。你看多数地方的电讯公司就是一开始已经有那几家,其他的可能会有一些移动电话的供应商。
另外就是,监管方面,对电讯行业的监管,所有国家的监管都是很严格的,因为不但影响着每一个人,而且信息方面、企业方面,只要一旦中断整个区域就没办法正常运作,所以监管方面也是很严格的,我相信金融业跟电讯业应该是监管最严格的两个行业。
另外一个问题,生产力的问题。我早期的时候在中国经常讲生产力要提高的问题,好多人就告诉我说,你太不了解中国的民情了,好多企业来中国当时投资就是因为我们这里的人力相对来说比国外来的便宜,可是今天是2016年,你觉得我们中国的工资比国外便宜吗?我们便宜不过印度,便宜不过印度尼西亚,所以一直是往上升的,这个东西往上升之后就不会再下来了,所以唯一的办法就是,一个人必须做1.2个人的工作、要做1.5个人的工作。
所以当好的人员越来越少的时候会怎样的情况呢?人员就会开始流动,而且流动的会更加快速,因为好的人难找,一般的劳工容易找,你就会发现人员转动的更快。学习方面他把一个好的经理带进来,可能会把你提升上去,可是旧东家就会有一个问题,你这个人被带走了之后,你信息管控方面就没有一个中央的控制方式,你得考虑怎样去全程控制你BCM这个策略。
在新加坡我们遇到过几个问题,第一次在新加坡只有一家电讯公司,大概25年前只有第一家电讯公司,当成立第二家电讯公司的时候你会发现,第一家好多人在一起跳槽到第二家,成立了第三家之后,好多人就被拉到第三家去。今年我们会成立第四家电讯公司,你会发现那三家同样会面临人员短缺的问题,你怎样在人员转换的时候确保你的服务品质是很关键的,因为同时会发生竞争力增加,而且你新的竞争伙伴会很饥饿的需要更多的客户,你只要确保你的服务品质,这是一个很关键的问题。
这个是几个在电讯业考虑的因素。我今天用了这个案例,我们在新加坡做的业务持续管理,电讯业比较多一点,我跟你们说新加坡有三家电讯业,第四家还没有正式拿牌照,还不能做,我们在新加坡做了三家,新加坡只有电讯业。严格带讲,我们做了三家半,为什么呢?因为在三家电讯行业,在新加坡他们都以颜色来区分,一家是红色的衣裳,肯定看得到,另外一家品牌就是绿色的衣裳,第三家出现的时候就是橙色的衣裳,为什么零散呢?因为网络的覆盖大小。为什么有三家半呢?还有另外半家是提供背后的基础设施的。
这是我们在新加坡做的四家电讯公司,在中东跟其他的东南亚国家也做过不同的电讯公司,他的背景是这样一个上市的公司,他有大概130年的历史。他提供的服务部单单是电讯,网络方面Network,之前王岗说很多云方面的策略,托管服务,或者企业方面的服务,甚至最近成立了一家公司,专门处理网络上的信息安全,这也是最近两年东南亚比较关注的。
在2012年的时候我们帮他们通过了认证,对风险管控跟BCM方面都非常关注。为什么他会这么关注这个东西呢?其实是有一个原因的,130年的历史从来没有发生过的事情会不会发生?有可能会发生的,这么巧某一年就发生了这样的情况,所有的电话的交接站,电话交接站里面有什么呢?其实什么东西都没有,只有光纤、线路跟一些器材,一般情况下这个地方也没太多人去,都是当有需要的人才会进入那个地方去。在那一年就发生过这样的情况,有一个外包商,因为他要加多一些框架,就在那里做焊接,做焊接的时候不小心火花碰到线路上去,结果就开始失火了,虽然他什么东西都没有,可是有塑胶,开始烧的时候就没办法控制下来,130年从来没发生过的事情,居然整个烧了一半,这个事情发生之后他们就开始说是不是我要考虑业务持续管理这个问题,所以好多东西都是有一个起因的。
当你要做一个电讯业BCM的时候,第一个考虑肯定是范围,什么是范围呢?本身做BCM的时候究竟是什么东西定为你的BCM的范围?你怎样去决定什么东西在你的BCM要考虑的环境里面,什么东西是不考虑的,没可能在一个企业里面你把所有东西一次全部包含在里面,除非你是一个很小型的企业,只有十几、二十个人一起来做有可能。可是在BCM在新加坡电讯有接近13000人企业里面,他做BCM的肯定要考虑谁先做、谁后面做,范围是一个很关键的问题。
另外一个考虑的问题就是,最低的业务持续服务或者是最低的业务持续目标,在ISO22301跟我们30146里面讲的比较多一点,可是好多人做BCM的时候都告诉我说,我怎么决定我的最低服务要求?你们每年都有定向,自己今年想要达到的目标,我们好多人都有这样的习惯,刚刚过了春节或者过了元旦之后,你想新的一年里面我想给自己今年定一个目标,今年我要减肥5公斤,薪水得加10%,想任何的办法让你老板给你加10%,或者把业务扩展到另外两个点或者三个点,这是最高的要求。为什么呢?因为你说我今年能达到开展两个点就写两个点,能做到三个点就写三个点,一般要提一点,没有达到也没关系。
可是BCM是从反方向来想的,灾难发生的时候你能够比平日做的更多吗?不可能,你能做到跟平日一样吗?也不太可能,所以你得考虑什么是最低能够达到的目标,而且最低能够达到的目标必须符合你在合约上的承诺、必须你对市场上的承诺,所以BCM本身不归类在IT里面,也不单单归类到管理上面,归类到社会安全的问题。因为最终你不持续的话,影响的不单单只是对个人的影响,而是对整个社会的影响,所以你必须把最低的运运营要求持续下来。
这里给大家几个建议,什么是最低的要求呢?你可以考虑说,最终的时候我究竟能够做多少的业务,可能是50%,可能是只要影响不超过1个Million就OK了,经济上、工作量上都得考虑。
另外一个就是关键活动,什么是关键活动呢?你得考虑真正的关键活动,就是没有了这些会影响大家的正常操作,而不是说日常环节大家伙都做的工作就是关键活动,你得考虑有哪些工作是没有他我不行的,你一个人影响没关系,哪一些是没有他整个部门是不行的,或者哪一些没有了他整个企业是不行的,或者哪一些你不做的话会影响整个国家的,你得考虑优先次序的排列,这些都是关键活动大家所考虑的。有一些是关键的流程方面的,有一些是灾难方面才变成关键的,像人员的安全问题,可能日常环节大家都不觉得重要,可是灾难发生的时候安全问题就体现出重要性。
中断时间,特别是大家如果定中断时间的时候必须实际,严格来讲我知道在国内有很多监管机构,他会帮企业事先定好RTO跟RIO,正常情况来讲国际上良好实践指南来讲,这是不可能的,为什么呢?你想想大家都是金融业,大家的恢复时间都是一致的吗?不一样,你得考虑什么是最大可承受时间,所以刚才讲的ATM提款机,最大可容忍的中断时间是4小时。
像我胆子比较小,你跟我讲最大承受是4小时,我定在2小时里面恢复,有人胆子更大一点可以3小时,可是你不能定3小时又30分钟,只留30分钟给自己做,如果真的灾难发生的时候你就恢复不了了,因为好多时候突发事件都有自己意想不到的事情发生,要留出足够的恢复时间,最大可中断时间和恢复时间要符合,别老板说20分钟就20分钟,实际自己也没有信心20分钟,必须实际一点的,考虑不同的情况。
这里面几个例子,网络运营方面,最大的中断是3天,你想网络中断3天影响大吗?所以好多人在国内就不敢写3天,写30分钟,所以你得考虑两个方面的维度,如果你要求跟供应的策略必须是符合的,恢复时间是一天,信息安全可能是3天,一天客服方面,如果客服4小时不能接受,就不能考虑另外策略,把这个工作转移到另外一个环节里面去,必须看你的策略和可行有的资源能不能达到平衡点,而不是纯粹他写1小时你就写1小时,灾难发生的时候就发现你没办法达到这个目标。
得到一个平衡点,要求越高要投入的资金越多,如果你没办法投这么多的资金,只好把要求降低,所以这个工作必须跟业务上的同事公开的去谈,而不是他只有这么多预算,可是还是写20分钟,你知道最后灾难发生的时候就会认证之后达不到这个要求,最后大家同时受到影响。
这里给大家举几个例子,做不同策略的演练,办公场所的演练,在一些控制的办公场所,把人员分散A组、B组,我们在周一的时候启动,所有人都到异地去办公,你说我没带什么文件是你的问题,去到异地办公确保他能够正常操作,这种是突发的演练,办公区一些资源的考虑,重要的一些文件,在备份中心能不能获得这些资源,也进行这方面的测试,这是演练在22301上的要求,那些高管要求所有人进行疏散。
我还有比较有意思一点的图片,我们在做演练的时候好多人都没戴过N95的口罩,你们有戴过吗?你有试过戴N95的口罩进行演讲吗?如果真的是禽流感爆发,是不是给指令,告诉同事怎么做的,我们就模拟了大家要戴N95的,大家都戴N95的,我们找的一批快到期的还有一个月的,通过大家体验戴N95讲,我讲了大概半小时,几乎发现讲不下去,为什么?因为N95会把95%的空气隔离,确保安全,只有5%的空气让你进行演讲,坐着还行。演练最后发现真的这种情况发生的时候必须有其他的方法做这个工作。
这个是桌面演练的一些情况,演练的时候我们要求他们日常也是这样控制的地方,必须把它变成容纳200人的,你周一的时候开始说4小时演练,我的工作很简单就是计算时间,4小时达标就通过,这样通过这方面就验证到底能不能持续。
最后这个认证,不要问我为什么一个漂亮的女士是内部审核,一个不太帅的先生是做这个的,我也不知道,因为我的同事帮我做PPT的时候,他们就选了图片,放两个男生不,放两个女生不好,就放了一男一女。在亚洲环境里面,我看到很多企业,有些企业做了BCM还没有达到那个水平,可是因为高管要他去做认证他就做进行认证,有的企业做好了BCM,可是他还是不想经过认证,为什么?树大招风,不要这个名头,你得考虑不管你做内部审核也好、做认证也好,你的目的是什么,你要做这个东西必须达到那个水平,如果还没有达到那个水平千万不要做,不然对你后续的影响会更大。你想一下,一家企业通过认证中断了没办法恢复,跟另外一家企业也中断了可是还没通过,哪一个影响大一点。
因为时间关系我就讲到这里。谢谢!