《中国金融》杂志刊发云信达张兵撰文:提升数据管理能力是数字化转型根本

《中国金融》杂志2020年第9期“金融数据治理”专题,发表了云信达公司创始人张兵撰写的《提升数据管理能力是数字化转型根本》的文章。

以下为《中国金融》杂志刊发原文。

提升数据管理能力是数字化转型根本

云信达公司创始人兼CEO张兵

在严峻的新冠疫情期间,国内某知名的互联网企业发生严重的“删库”事件,一夜之间蒸发12亿港元的市值。尽管数据保护在金融业一直是最重要最基本的风险管理目标,但作为数据管理行业的一名老兵,笔者认为这个事件给所有行业的数字工作者以警示,数字化既是机遇也是挑战。人民银行提出的做好数据治理推动数字化转型的规划和部署,其中数据保护、数据治理和数字化业务转型,这三者之间究竟是什么关系,是一个需要首先讨论的课题。

做好数据治理迎接数字化时代到来

数据是企业最核心的IT资产,数字化时代,数字化生存离开了数据一切都灰飞烟灭。近年来,各行各业在进行数字化转型,无疑疫情会加速中国及世界的数字化转型,使竞争更加白热化。古语说,积小流成江海。金融业的数据资产是在长期业务发展过程中沉淀下来的,无论按照单位数据价值(Value per bit)还是数量,金融行业无疑排在前列。如何用好数据海洋,这一重要课题一直为金融业以及金融监管者所关注。

在数据达到一定规模之后,金融业都会面临全局数据治理的问题。在此之前,金融机构的数据是离散的,分布在多个信息系统内部,形成人们经常说的“数据孤岛”,这是金融行业数据治理首先要面临的课题,其实何尝不是数字化时代的基础课题,然而,现实中这个问题并没有很好地得到解决,不少机构还沿用传统的数据管理方式。

应用烟囱和数据孤岛

就银行内部来说,数字化转型首先开始于信息科技部门。组织内部的业务部门和职能部门,一般形成垂直与横向交叉的矩阵式架构,以业务为中心,而职能部门从业务单元抽离出来形成横向管控和支撑。于是我们提出了横跨信息科技部门和业务部门的数据管理职能,类似许多管理矩阵中存在的大量虚线汇报关系的虚拟组织,某些金融科技公司的数据管理职能目前普遍虚拟化或者干脆缺失。科技部门有数据库管理员却没有“数据管理员”,这个现象和“数据孤岛”互相作用,形成一个死循环。上述现象在人民银行科技司李伟司长撰写了一篇文章《做好数据治理推动数字化转型》中被视为金融数据治理中所存在的障碍,该文中在金融业数据治理之“术”的开篇就提到了要做好顶层设计。数字化转型前的金融科技部门,有应用(APP)开发者、系统管理员、数据库管理员……这些职能和角色都是基于“显性”IT资产——应用软件、硬件设备、系统软件而设立的。这些“前数字化”职能如何面对数字化时代的企业数据资产——生产和交易信息、客户与合作伙伴信息、资产和位置信息、代码、知识、算法、模型……离开了数据企业无法生存,就是说,数字化时代的金融科技公司的顶层设计应该转向以数据为中心。

数据资产 “逻辑集中”的误区

既然数字化转型需要把数据管理职能从业务单元中抽离出来,那么数据的管理范畴也需要从业务范畴中抽离出来。数据中台和大数据都不是数据资产平台,属于典型的业务范畴,但是很容易成为认知误区,而这样的误区往往会直接导致数据治理走上弯路。

现实中被误导的例子时有发生,比如自从阿里提出数据中台的概念,一些金融企业跟风向往。如果说,数据中台更偏重流程型业务,大数据更偏重分析型业务,那么,它们整合数据的业务目的显然大于资产管理目的。大数据平台和数据仓库都是以决策支持为目的建造的,通过应用数学模型和算法,揭示数据在更大时空、更多维度、更广泛主题所呈现的规律,用于辅助决策;基于算力和方法,高速处理海量数据,直接驱动流程和业务。总之,大数据是面向复杂决策支持的数据业务平台,为了适应业务模型和运算的方便,数据可能会变形或转换,从而失去了原生性,导致数据的资产属性丧失。

就是说在整个数据管理中,中台不是万能的,数据中台的核心思想是将业务数据整合到一个分布式的数据服务平台快速支撑业务创新、业务交叉和业务弹性。金融IT是典型的双态IT架构(稳态和敏态),显然,如果将决定生死存续成熟稳定的核心业务平台拆掉,单靠装入灵活的中台是与银行初衷与风控原则相悖的。中台是典型的敏态架构,是金融企业的业务平台之一。对一个敏捷业务平台赋予数据资产管理职能显然是小马拉大车,而数字技术已提供了既能够坚守银行风险管理底线又同时支持灵活创新的两全可能。

数据治理与数据保护的协同性

那么,我们有怎样的数据治理工具呢?泛企业的数据资产发现和数据治理工具并不缺乏,它们将数据的管理范畴像“虚拟组织”那样从业务范畴中抽象出来。可是我们知道企业的数据每年以50%的速度增长,数据发现、分类、分级、变迁、使用等,会遇到诸多技术和管理问题。况且业务系统中的数据是动态变化的,治理一个变化中的对象需要对它进行持续的管控,管理和控制的逻辑叠加在业务系统上有时并不合适。于是,从业务系统中抽离数据资产自然而然成为科技部门的一个任务。抽离就是从业务系统中把数据复制出来,建立一个生产数据的“孪生数据”,一个处理业务逻辑和业务压力,另一个处理管理逻辑和管理压力。数据复制如同印刷术在IT的发展史上已经存在了很多年。

根据IDC统计,一个中型企业内出于各种目的产生的复制数据有8-10份之多,常见的有:备份、容灾、归档、分析、审计、开发测试等。复制手段和工具多,复制下来的数据多,存放方式和地点多,已然成为一个管理难题。复制数据管理在数字化转型的当口既是管理问题又是技术问题。复制数据有些是无条件、不得不做的,有些是有一定选择性的。所以复制数据管理就从不得不做的领域发端,并成长起来。

数据保护是IT运维的日常业务,也就是数据备份。金融行业对数据备份有着严格的规矩与监管,金融系统的原生数据,包括数据发生逻辑变化的时间变量,全都被忠实地记录在数据备份系统。最近发生删库事件的互联公司居然没有备份,这在金融企业是难以想象的。然而,备份系统的情况并不妙。据IDC 2018年的一项报告,全球70%的CIO对现有数据备份系统不满意。现行的备份技术20年没有升级,导致海量备份数据只在灾难恢复时用一用,平时这份可以救命的数据沦为 “暗数据”。一方面,人们想要从业务系统抽离数据用于管理目的,另一方面,“暗数据”滥觞,这是一对巨大的矛盾。

为应对数字化转型,全球知名的IT研究咨询机构Gartner在2016年定义了一种 “复制数据管理”或“副本数据管理”的新技术——Copy Data Management,简称CDM。CDM首先是一种备份新技术,以“原格式”获取生产数据各个时间序列的副本;其次,CDM是一个副本数据管理平台,备份数据能够被管理和使用,不再是暗数据。CDM统一了复制数据的过程,统一了副本数据的管理,统一了副本数据的流转和使用。CDM管理着生产数据的新鲜副本的总集,并且是“原生的”,具备天然的资产属性。在多个国家,备份数据的这个属性被用来作为客观证据。这使得CDM成为一个从业务系统中抽离的数据资产集散地,一个副本数据资源中心。

副本数据成为管理范畴的焦点也仅仅是数据治理得到重视之后,那么,数据保护和数据治理究竟是怎样的关系?数据保护是传统IT运维的范畴,数据治理然是资产与合规管理的范畴。数字化转型就是要打破部门之间的藩篱,让数据成为最活跃的生产要素,副本数据管理自然上升为推动数字化转型的跨界“生物”。

副本数据的价值和运用

盘活数据资产的前提条件是健全治理体系。人民银行提出了三点:一是做好数据资产管理,二是做好数据分级管理,三是做好数据共享管理。

金融业的数据治理是一个动、静结合的体系,静态能力包括数据资产的建档、分级、分类、关联、确权、定价,等等;动态能力包括数据检索、审计,数据流通、共享、交换管理,去标签化(脱敏),加密,等等。数据治理平台做完三件事可以建立消费数据的基础,首先建立元数据管理,也就是描述数据的数据;其次提供便捷的数据资产检索、定位;然后建立数据输出到企业内部、外部的标准。

副本数据是数据保护的结果,继而成为了数据治理的对象,治理之后又返身进入数据消费的环节。刚才提到IDC统计过企业内部基于各种目的产生多份副本数据(复制数据),有了副本数据资源中心之后,既可以减少复制的动作,数据消费的出口也可以很方便地扎口管理。随机举几个业务场景的例子:一是CDM可以成为数据仓库之前的ODS,大数据之前的数据湖,CDM即数据湖;二是固化数据用于审计目的;三是CDM给DevOps(开发运维一体化)赋能。

三位一体的数据“底盘”

副本数据管理诞生于运维,因资产属性成为治理对象,因为是活跃的生产要素直接进入驱动数字化业务的环节,运维、治理和流通环环相扣,既是一个完整的跨界循环,又是一个有机的整体。下图描绘了副本数据管理的三位一体特征,已经大大超出了Gartner早期的定义。

三位一体的数据底盘

数据管理固然是金融业数字化转型的重大课题,不过眼下数据保护、数据治理和数据流通还存在不少相互制约现象,导致创新和转型步履维艰。比如:互联企业既有支付创新也有删库事件,共享经济隐含着隐私数据外泄等违法隐患……科技进步使得数据这一生产要素变得更加活跃也更加危险,创新必须在风险可以管控的前提下,这就给风险管理提出了新的课题。副本数据平台是一个理想的抓手,副本数据是企业可管理、可操作的资产对象,围绕副本数据平台可以把数据保护、数据治理和数据流通放在一个整体的框架内统一考虑。聚焦副本数据建立数字化底盘,不断丰富和完善相关的技术体系、管理规范和行业生态,可以加速各项数字化举措的落地。

副本数据管理的三位一体架构除了应用于企业内部,监管单位、分支机构和外部合作伙伴的数据上收或共享也变得更简便、可靠。随着5G的建设,多云数据管理可以加速金融云的构建,符合行业标准的跨企业的数据共享、交换也变得更加可行。当然,有了这个“底座”,还需要行业数据治理规范、数据主权立法、数据流通的相应标准制订等等的同时跟进,才能真正建立起数据治理的生态环境,完成金融业的数字化转型,从而才能真正成为推动数字化经济的主要力量。