2016年的一天上午,某著名零售连锁企业的CIO发现,公司一个小时内的业务量比前一天突然下降了30%。这不是某一个门店的变动,而是该企业在中国2300多家门店的整体数据。
对一个零售品牌来说,交易量的变化基本上来自两大因素,一是外部因素,比如价格策略、促销策略、推广渠道等营销相关的;第二是系统故障、效率等问题导致的影响。
一般而言,第一个因素不是CIO关注的重点,因为业务指标不是IT部门的关键指标。然而在数字化时代,这一传统已经发生了改变。
企业互联网化,不仅使CIO在企业的角色发生了变化,CIO关注的重点也已经从IT系统本身转变为IT系统如何支撑业务,甚至是引领业务。
所以,当每小时业务量突降30%后,CIO迫切地想知道:是不是哪个系统出问题了?
“在这种逻辑下之下,IT部门就需要从企业的实际业务出发,来分析后台系统的运行状态。这是当前CIO很真实的需求。”云智慧总裁刘洪涛告诉DOIT记者。
系统黑匣子:数字化的转型痛点
这可以理解为IT运维层面的需求吗?既是,也不是。2016年下半年,定位于APM的云智慧悄然推出业务运维解决方案,它瞄准的,就是企业数字化转型背景下IT与业务深度结合所产生的新问题。
当前,数字化已成为企业发展的重要方向,这种转型带来的IT与业务结合的新问题到底是什么?又怎么解?
要分析和解决新问题,有必要先看看老问题和传统的解决方法。
过去,当IT系统发生故障时,会有很多监控系统发出告警信息,但这些告警基本上都是针对IT本身的,并不关注故障对业务的影响。
随着企业的数字化转型,新兴的线上业务与IT有了更为紧密的联系。当业务发生问题时,CIO要迅速找到与问题关联的IT环节,老办法会失灵——这是由于,企业数字化所建立的在线系统,往往通过数据接口与运行多年的成熟的IT系统建立联系,但他们在运维层面的关联还没有打通。
这是传统企业的CIO面临的最大的挑战,很多系统运行10年之久,开发商可能已经不在,企业根本无法搞清楚系统内部的结构情况,拓扑结构也画不出来,一个个系统就是一个个黑匣子。
“云智慧业务运维要做的事情,就是解决这个数字化转型的痛点。”刘洪涛说。
业务运维:业务系统健康诊断专家
怎么解决?从业务运维的产品理念上可以找到答案。
业务运维的理念是:当有用户进行某项业务时,一定是访问到了某个IT系统的某些功能模块,然后跳转到另一个系统,最后得到想要的结果。任何一个交易,任何一个访问行为,都是如此。
针对用户访问行为进行监测,业务运维利用大数据采集分析技术把每一次用户访问都打上标签,从而把用户在系统里所有的访问路径拿出来,形成一条完整的业务逻辑线。当有海量用户访问的时候,业务运维就可以穷举所有的可能,所有的用户行为都可以拿出来。这样,就能按业务逻辑重新梳理出业务系统的逻辑拓扑结构。
“这个过程特别重要,相当于帮助企业把业务逻辑重新抽象出来。CIO可以通过业务拓扑直观地看到整个系统的逻辑架构,以及不同系统之间的连接状况。有了这些作为基础,业务运维就可以抽取关键业务指标。”刘洪涛强调。
以前文所述的该著名零售连锁企业交易量下滑为例,“交易量”就是一个关键指标,企业只要对关键业务指标进行监控,当发生异常时就给出报警,然后从关键业务指标开始查找,一直查到拓扑结构上,并进一步溯到业务故障的根源问题。
通过这个逻辑,最后发现是服务器的一块硬盘满了。
硬盘满了是一个很初级的IT事件,在运维工程师那里属于并不紧急的问题。但是,对于前端业务的影响确实很严重的,硬盘满了,第一体验是服务器请求处理时间长了,而该服务器正好是负责第三方支付,这就造成前端的支付响应很慢。
对于这家企业的2300多家门店来说,用户在同一个时间段刷卡有问题,业务量一下子就掉下来了,这是很严重的问题。所幸,该企业就是靠业务运维的办法,把过去认为的一个很不重要的IT事件与业务进行了关联,迅速找到原因并解决了问题。
互联网化给传统行业带来的挑战
看到这里,也许你会说,这貌似不是什么关键问题?的确,对于互联网公司而言,由于其IT架构从一开始就是分布式、松耦合,在线业务与系统的紧密关联,业务与IT本身就是一个整体。但是,对于转型数字化的传统行业用户来说,则要复杂得多。
对于传统企业而言,多年信息化建设所形成的烟囱式架构,造成了一个个信息孤岛,这些企业的系统利用率、IT管理、IT治理等由于“私有化”而非常复杂。
CIO面临的挑战,不在于互联网本身。因为建一个电商网站或者做一个前端APP很容易。但是,当前端上了电商平台,后台有一大批系统需要对接,比如库存管理,财务系统,供应链系统,物流系统,客服系统,还有会员管理等等。在银行业,这种对接的系统可能达数十个之多。
由于这些系统不是互联网化的,技术上可以通过代码、调用的方式把他们与前端系统对接,但是挑战在于,当前端的业务发生问题的时候,企业无法快速发现后端系统是什么状态?哪些系统影响了业务的变化?能不能找到问题所在?另外,系统的效率怎么样?
金融场景:传统方法解决不了新问题
我们结合金融业的数字化转型,来进一步分析传统行业互联网化给IT带来的影响。
在金融业,有两个体系非常成熟,首先是IT运维体系,当创新业务以互联网架构和逻辑展开时,对IT运维提出了很大的挑战。刘洪涛对此的表达是,“银行业被迫适应这种变化。被迫进行数字化转型;被迫上新系统;被迫改变过去的方法,用新的办法来管新的系统;被迫从用户体验的角度出发来解决问题。”
其次,金融机构的IT风险管控也很成熟,这也是金融业务创新速度一直被诟病的因素之一。存在即为合理,创新业务如何在既有IT风险管控框架之下满足业务的要求,同样是一个亟需解决的命题。
刘洪涛否定了两者进行“匹配”的思路:创新业务从业务设计到架构,与传统业务都完全不同,很难向下兼容。“能匹配的是管理原则,但是管理方法绝对不能套用。传统的IT风险审核机制,在互联网领域是行不通的。因此,必须要迅速构建新型业务的风险管控方法。”
对银行来说,大机时代的业务逻辑依然存在,但时过境迁,它已不适用于强调用户体验的创新业务,后者的用户容忍度很低,运维管理的价值取向发生了变化。
传统的方法论,解决不了新问题,必须要用新的思路来解决,这就需要大数据。而这,也是云智慧业务运维的核心基础。
新思路:运维大数据
在前面的业务运维理念的阐述中,我们注意到,它的核心是运维大数据。
这是因为,当企业IT发展到一定阶段,系统的复杂度已不可同日而语,如果还是依靠工程师用传统运维的思路去梳理,很难有效的解决问题。所以一定是靠大数据的办法,把趋势性、逻辑性的东西抽取出来,建立新的管理逻辑。
对于这个层面,云智慧的数据处理模块DataHub能够解决几十种不同数据类型的处理问题,包括APM采集的监控、性能、用户行为、日志数据等,各种业务系统产生的结构化数据和非结构化数据,都在DataHub引擎里进行处理,这是业务运维数据处理模块的关键技术。
事实上,云智慧的业务运维已经不是一个简单的产品,它把监控宝、透视宝、压测宝的功能和运维大数据分析能力都包括进去了,提供了一个完整的解决方案。
对于CIO而言,首先,业务运维的前端,强调的是一个很好的界面,解决业务的实时可视,从底层到上层,从后端到前端,第一时间发现系统的运行状态是否健康;第二,CIO关心的所有关键指标,包括IT指标、业务指标都抽取出来实时可视,有问题实时告警,形成一个监控平台;第三,支撑平台的解决方案,有用户体验模块,基础监控模块,故障分析模块,数据采集、分析,业务分析,容量规划、压力测试,用户行为分析等等。
线上业务的根本在于用户体验,而用户体验除了前端界面的友好,很大程度上取决于产品的易用性,这与系统性能有紧密关联。当CIO重点关注业务时,他思考的不仅仅是不出故障,而是怎么支撑业务甚至引领业务,能否通过系统的持续优化来改善业务。
业务运维所要做的,就是提高整个系统的运行效能并进行持续的改善。它通过检测用户体验的改善,来优化系统的效率指标,用户体验上升了,业务水平就上升了。这是来自互联网的逻辑,既是CIO非常看重的一点,也是CIO对业务的贡献中很重要的一点。
互联网逻辑+传统行业的价值之旅
“我们最终要改善的,叫做业务效能。”刘洪涛说。
业务效能的核心,并不关心前端的商品,而是关心每一件商品所消耗的系统资源,以及系统能支持多少商品的销售、故障率能不能降下来。从头到尾,互联网公司都是这么做的。
当传统企业进行数字化转型时,CIO面临的最大的难题是过去10年构建的系统怎么办,推倒重来?绝不可能!业务运维,其实是把互联网领域相对比较成熟的框架应用到了传统IT中,帮助客户进行数字化转型。
纵观整个行业也许我们能发现,一些创新型的企业级IT公司,目前的发展路径就两个:一个是看最前沿的公司比如亚马逊、微软、阿里,他们做什么,大家跟着学,争取做得更好,然后把产品和服务卖给这些前沿的公司;第二个路径,企业如果在互联网领域积累了很好的技术,那么就掉转头来,帮助传统企业转型,因为这是一个更大的蓝海。
云智慧选择了后者。
“我们认为,互联网行业的技术发展比传统IT大概领先10年左右,这10年的差距,就是巨大的商业价值。我们把在互联网领域积累的经验和技术做成产品和服务,帮助传统企业做转型。这就是云智慧的商业价值所在。”刘洪涛如是说。