精益数据方法论驱动企业数据价值创造

本文章编辑整理:DOIT张妮娜

近日,2022中国数据与存储峰会大数据应用论坛出品人史凯发表题为《从数据到价值》的精彩分享,以真实的案例,阐述当前企业在数据应用问题上的困扰以及应对策略,并提出精益数据方法论的重要观点。

史凯(凯哥)精益数据方法论创始人

“凯哥讲故事”公众号作者从业20余年,程序员出身,近10年聚焦于利用数据和人工智能技术,帮助企业打造数据能力,构建业务价值,助力众多企业实现数字化转型。

数据创造价值的四大阻力

每个企业都希望自己成为数据驱动的企业,但对于众多企业,数据创造价值存在四大阻力。首先对齐一个思想和概念,数据已经成为了业务的数字化存在形式。

把业务和数据的关系用一个自然的现象来做解读。左边是一个三棱镜,右边是一个倒三棱镜。业务就是一束自然光,企业通过组织结构的设计,通过职能业务系统的构建,把一个实体业务本身分解成了财务、物流、设备、人力、风控等不同的职能体系,这样便于企业去管理。但同时也产生了一些数据孤岛,不同的口径,数据的结果是不一样的。在过去这是没有问题的,因为过去企业内部要更好地去协同,各自管一片。但今天,当企业面临更大、更快速的市场竞争的时候,企业希望把自己变成一个产品。企业自身就是一个产品,面向客户快速提供业务能力,为客户提供高价值的服务,做到全局优化,这是每个企业所希望具备的能力。但是现在这些数据孤岛带来了困扰。左边这个三棱镜实际上是一切业务数据化的过程,但现在企业更希望构建的能力是如何从这些分散的、割裂的数据孤岛里,还原出最真实、最全貌的业务,从而用这些数据给我的业务做指导,也就是我们讲数据融合,一切数据业务化。如何能去融合,这就是数据现在对于企业的价值。

NewVantage Partners报告指出,阻碍数据产生价值有四大挑战。

第一、业务鸿沟。数据与技术人员不懂业务,业务人员不懂数据和智能技术,两者之间无法形成合力;

第二、场景鸿沟。找不到高价值的业务场景,无法让数据直接参与业务的生产,并且无法清晰地度量数据带来的价值;

第三、质量鸿沟。数据质量差,无法保证业务的效果,传统的数据治理很难以高效地解决这个问题;

第四、规模鸿沟。我们不能让数据停留在实验室里,停留在小的MVP里,需要让数据真正大规模地为企业产生价值。

案例解析 数据驱动的企业如何产生业务价值

以全球头部数字化企业Netflix的真实案例来看,一家传统企业是如何解决这四大挑战并成功进行数字化转型。

Netflix构建了四大体系,首先是Netflix的DataBP机制,就是它的数据人员是深入到业务团队里面去帮助业务产生数据价值的;第二、解决场景鸿沟,他们所应用的是价值出发,探索共创的方式;第三、质量鸿沟。如何解决数据质量问题,Netflix采用的是全链路协同的机制,全民接数据生产和消费者,打通整个数据的生产链路,在过程当中解决数据质量问题;第四、规模鸿沟。Netflix打造了全企业唯一的、统一的数据资产生产利用的平台,也就是我们所讲的数据中台。

我们快速地来看一下,它这四个方面是如何做到的。

首先,Netflix整个企业所有的用户都在使用数据。在现在的情况来看,它的每一个业务板块都有对应的数据团队,总部的数据团队跟所有在业务里的数据团队紧密地协作和融合。数据人员以数据合作伙伴的方式,深入地参与到业务当中,这种情况下业务跟数据人员能够无缝结合,充分地利用数据的技术,去解决数据问题,提升业务的效率。

第二,如何解决场景鸿沟?Netflix并不是一开始做非常大的规划,然后先把能力建好,再去找场景去解决问题。他们是以场景、业务价值为核心,由于它的数据人员跟业务人员紧密地协同,所以数据人员能实时地发现业务的痛点和问题,两者去共创,形成真正的数据需求,而不是一些由于业务人员不了解技术,最后自己想出来的一些伪需求,无法实现的需求。所以Netflix在所有的业务领域,都充分地利用了数据,从数据驱动的个性化体验,每一个观众所看到的Netflix首页都是不一样的。到数据驱动的产品设计,到它整个企业资产的优化,内容的制作,产品营销的预测,整个企业的运营优化,这是一家完全数据驱动的企业。但是你可能无法想象,在20年前Netflix还是一个租光盘的实体店铺,所以Netflix解决场景鸿沟用的是场景驱动,以业务价值为核心。

Netflix是如何解决数据质量的问题?它并没有去构建我们所讲的完整的、标准化的,这种非常重的数据治理体系,或者说这一部分并不是它最核心和投入最大的。它把数据的整个生产看作一个完整的链路,在链路生产利用的过程中,每一个环节都有数据质量把控的关键动作,所以它已经把数据治理融合到了数据生产和利用的过程当中。这里面很重要的一个能力是如何建立全链路的数据协同生产,我们举个例子。

如果财务人员能实时看到企业里所有利用财务数据,设计财务KPI的这些数据工作的话,那么当他发现这里面的口径、算法、标准不一致的时候,他就能去协助解决。全局的协同,就能从根本上解决数据生产二次加工质量的问题。但这里面有一个出发点,Netflix非常提倡数据可视化。

Netflix里面有一句话是拿到数据先解读,让所有人对齐认知,所以这是协同的基础。这是第三个挑战解决的方法,用全链路协同去解决数据质量的问题。第四,Netflix打造了企业唯一的,也是统一的一站式数据中台。所有的数据用户不仅仅是数据开发、数据分析师这些,包括企业的高层。用数据看报表、开发数据的所有人员,都在这一个平台上进行数据的生产和利用协同,所以它是面向全部数据用户的。第二,它在整体的企业唯一数据中台里面,构建了企业级的数据链路全景图。

Netflix建立了全企业唯一的,也是统一的企业级数据门户,这个门户是非常有意义的。想用数据的人去门户上找数据,开发了数据API的人,把自己的API发布在门户上,这样的话别人可以去调用,这里面有非常严格的数据安全,数据权限管理的方式。这样的话,就全链路协同地打通了企业的数据生产利用,最大范围内规避了数据不一致,口径对不齐的这种问题。第四,企业的数据中台是完全构建在云上的,是完全现代化的数据技术栈。

Netflix应对这四大挑战,它的四种办法:

第一,业务与技术深度融合,采用DataBP的这种制度。

第二,充分以价值为驱动,以场景为核心,去打造数据产品。

第三,构建全链路的协同体系,以数据可视化为基础,去解决数据质量问题。

第四,构建企业唯一的一站式数据生产、开发、利用平台,也就是数据中台。

数据创造价值的底层逻辑

企业碰到的数据问题,我们都可以用七大浪费来作为一个解读,这七大浪费是现在企业数据问题产生的重要根因。

首先是过度生产,重复的报表,数据产品的功能重叠,很多用户不需要的功能。这些过度的生产,导致了当用户在需要数据的时候,面对的是多个重复的这些功能或者报表,或者数据集,他无法知道从哪里去选择。所以带来了很多时候他选择错误,产生了更加错误的数据二次加工品,企业有非常多的数据垃圾。数据这个领域叫Garbage in,Garbage out。如果不能够获取正确的数据,那么产生的数据产品一定是错误的。

第二是库存浪费,做了非常多的提前生产放在那里,用户并没有使用。最典型的例子是业务部门提出报表的需求,技术部门在排队生产。等技术部门终于把这个报表开发出来以后,业务部门已经不需要了,那这个报表就存在了数据库里,可能就以后再也没有人用,也没有人想起。

第三是运输的浪费,过多的数据集成动作,不需要的数据牵引,这些都是浪费。资源的浪费,算力的浪费是一方面。更多的是当企业再想用到真实、正确数据的时候,他面对的是一堆分不清楚,混乱的数据集、数据产品,就带来了更多的误解和不一致的地方。

第四是动作浪费,这个指的是数据工程师,数据分析师在具体做数据生产和数据利用时候的一些不够高效的技术动作。比如说不需要的数据存储,过多的数据转换,多层的数据抽象。

第五是加工的浪费,过多的数据分析,过多的特征值提取,不需要的训练数据。

第六是不良的浪费,产生了很多质量不高的,数据不准确的,用户体验不好的数据产品,它也在数据仓库里,也在我们的数据湖里。这些没有价值的不良产品,它也依然会给我们的数据使用带来众多的困扰。

第七是等待的浪费,数据构建的时候,过早地把数据收集进来,等待其他的数据进来做生产,这也是一种浪费。

在我们追求极致的效率的时候,这七大浪费不仅仅降低了我们数据生产利用的效率,同时更多的是带来了业务理解上,数据口径上的不一致。

数据生产的七大浪费产生的根因在于,现阶段数据质量问题的本质是全民化数据需求和有限/碎片的数据生产力的矛盾。十几年前,实际上数据质量问题不突出。因为所有的数据存储、开发、利用都是由IT部门统一去完成的,业务部门不需要去碰数据,业务部门拿到报表看报表,有问题找IT就够了,这种情况下,数据的开发利用过程、标准以及数据集、资源全部掌握在IT手里,统一标准化,这就问题很少。随着企业数字化转型的深入,众多企业已经成为了数据就是业务,业务就是数据的企业,这种情况下IT中心化的数据生产就不再能够满足这样分散的,日益增长的,无穷的数据需求。最后业务部门自己去利用力所能及的方式,构建了很多数据应用,包括用表格线下去做计算。但是这样一来我们就会发现,原来中心化的数据生产现在变成了一个分散式的、割裂式的,甚至很多企业里面业务部门都有自己的数据平台,数据存储,这必然会产生前面所讲到的七大浪费,带来的是大家的数据质量比较差,无法去为业务产生高价值的产品和洞见,我们根本上要解决的是全民数据需求与有限的碎片化的数据生产力的矛盾。

精益数据方法论:

企业数据价值创造的驱动力

怎么样能够去帮助企业构建这种统一的、标准化的、全民自服务的,从数据资源到业务价值的体系?在过去近10年的探索和实践过程当中,我总结了一套方法论,一套实践方法叫“精益数据方法”,该方法来自于精益思想。精益思想在日本工业革命时期产生的一大思想瑰宝,它提出了五大要素。基于用户价值为核心,将业务梳理成价值流,让这个价值流流动起来,更加高速地自动运转,过程中不再是以生产去定销售,而是以用户的需求来拉动生产,减少浪费。最后在自动的价值流不断流动的过程中,快速迭代,持续完善。

精益数据方法论总结成四大要素:

1、数据一定要服务于客户价值,服务于业务价值。数据的生产利用本身不是目的,是手段。数据质量也不是目的,也是手段。在未来,随着所有企业的业务全变成数据化以后,数据会时刻地发生变化,包括数据的类型。

2、要构建数据价值流,从我们的原数据到最后整个数据产品和报表,到用户之间要有一条链路构建出来,并且这个链路要通过DataOps数字化的方式,让它更快地流动起来,自动化;

3、消除浪费,按需生产。把原来前面提到的七大数据生产的浪费尽可能地全部消除掉,这样的话能够提升数据生产的效率,并且提升用户满意度;

4、不建议做这种无死角、全方位、深度的这种大而全的,规划完了以后再用几年的时间去落地的方式。而建议用精益的方法,敏捷的思想持续迭代,找到亮点场景快速启动,小步快跑,快速试错。

精益数据方法论包括三大部分内容:

1、精益数据宣言,就是精益数据价值观和精益数据原则,它指明了企业做数字化转型过程当中,利用数据的一些底层的价值观和实施原则,这样让所有人能够达成一致,对齐思想;

2、如何能走到精益数字化转型的这样一套方法,我们把它分为三个步骤。左边是第一步,先找到业务价值的场景,业务的痛点。在找到亮点场景速盈的项目的同时,我们要探索发现所有的场景,要排出优先级,快速地进入到优先级最高的速盈场景MVP的构建。在这个过程当中,我们分两层,上面一层是数据产品的构建,下面一层是数据平台与数据能力的构建,当然还有配套的组织体系这样一些保障。当速盈产品上线以后,就持续进入运营优化迭代的过程,这样三步走。找到、探索、场景、识别、高优先级、速盈产品、快速构建MVP上线。

3、持续运营打造数据中台,让企业能够真正建立在数据驱动的基础之上。

精益数据治理有六大新范式:场景化、智能化、探索式、规划式。精益数据协同尤其重要,数据中台能为业务人员提供数据产品,让业务人员具备自服务的数据能力。同时,数据中台又是一个全链路拉通生产,数据协同的平台,从数据门户进来,开发人员能够在里面找到他所需要的数据集,数据分析师能够在里面知道业务的需求,数据产品经理融合所有的这些角色,端到端的,全生命周期的去管理数据产品。

所有的这一切都需要一个开始,从哪里找到场景,在哪里去跟业务对成一致,认可这些场景并去实施。精益数据方法论提供实施参考,也是行业首创的数字化剧本杀,包括转型方法和构建数据驱动企业的六大能力等要点,以帮助企业对齐思想,探索场景,找到切入点,快速启动。据悉,由史凯撰写的《精益数据方法论-数据驱动的数字化转型》,即将在11月底出版上市。融合其多年行业实践经验,通过十大篇章,共计30万字左右,覆盖方法论、实际案例、实操指南等内容,值得期待。