转变为数据驱动型企业的5种方法——TDWI最佳实践报告

所有企业都在不同程度上向数据驱动型企业转变,大多数都认为数据分析能为他们提供洞见。但是在一项TDWI的调查中,只有三分之一的企业表示他们是真正由数据驱动的,即基于数据分析结果制定决策后再展开行动。

成功的数据驱动型企业会建立协同合作、目标导向的企业文化。企业领导相信数据的价值并且以数据治理为导向。企业技术部门确保良好的数据质量并将分析纳入日常运营。数据管理策略涵盖数据的整个分析生命周期。数据可由多人访问和使用,包括数据工程师、数据科学家、业务分析师和分析水平较低的业务员。TDWI分析师Fern Halper对各个行业的数据及分析专业人士进行了调查,并总结出来以下五种转变为数据驱动型企业的最佳实践方法。

      转变为数据驱动型企业的五种数据管理与分析的最佳实践方法

在一项调查中,TDWI发现三分之一的组织根本没有对数据进行治理,并且只有不到20%的组织开展了某一类别的分析治理。数据治理是企业向数据驱动转型的一项关键准则。详细信息参见TDWI的调查报告。

     1.IT部门和业务部门紧密协作

如果IT部门和业务部门不开展协作,组织就无法以数据驱动的方式进行运营——因此,消除两者之间的隔阂至关重要。实现部门协作能够提升市场表现和业务创新。但部门协作也面临着诸多挑战。业务决策者通常认为IT部门不理解快速实现业务收益的重要性,相反,IT部门认为业务部门不理解数据管理的紧迫性。

如果将各个部门的角色、责任以及共同目标做好明确定义,便可以促进团队合作。这些角色应包括:IT /架构师、业务人员和管理人员(从业务发起到开发运维)。

  2.使数据可信且可访问

使数据可访问并确保数据质量是向数据驱动企业转型、突破壁垒的关键。无论是为数据分析做数据整合及转换的数据工程师,还是构建模型的数据科学家,每个人都可以在基于统一数据标准构建的可信数据中获益。

随着新类型数据的出现,例如文本、传感器、图像和流媒体,企业需要横跨多个平台对数据进行分析。这些平台包括数据库、Hadoop、流媒体平台和数据湖。这些系统数据可能存储在本地或云中。TDWI建议采用以下几种最佳实践方案:

·通过工具对多种源数据进行联合访问与数据关联,建立一个数据集成和数据通道环境。这使得我们可以通过点选式界面建立工作流程,也有利于使用工具实现ETL、ELT和高级规范(例如条件逻辑或并行作业)。

·数据管理、复用和治理元数据——即用于识别数据的数据,包括数据的大小、创建者、数据库列结构和安全性等。

·提供可重复使用、具有内置分析功能的数据质量工具

     3.提供工具,帮助业务部门处理数据

从营销和财务到运营和人力资源,业务部门都需要使用自助工具来加速和简化数据的准备和分析工作。这些工具可能包括内置的先进技术,如机器学习,以及许多覆盖全分析生命周期的工作——从数据收集剖析到监控生产分析模型。这些“智能”工具有三种功能:

·自动化有助于模型构建和模型管理过程。数据准备工具通常使用机器学习和自然语言处理来理解语义并加速数据匹配。

·可重用性是指数据管理和分析过程中的重复利用。例如,可以将由源到目标的工作流数据保存并嵌入到分析工作流中,以创建预测模型。

·可解释性能够帮助业务用户了解输出结果,例如在使用了自动化工具构建的预测模型后协助用户对输出结果的理解。对数据驱动型公司来说,也需要有工具来说明他们达成了哪些工作。

随着企业在数据分析方面逐渐成熟,平台需要支持多用户访问,且具有统一数据基础架构的通用接口,这一点非常重要。这样能够加强协作,更方便人们开展工作。

     4.打造一个统一平台以支持数据分析与协同工作

随着企业在数据分析方面逐渐成熟,平台需要支持多用户访问,且具有统一数据基础架构的通用接口,这一点非常重要。这样能够加强协作,更方便人们开展工作。例如,在业务分析师构建预测模型并进行测试时,可以联系到数据科学家进行共同探讨。在业务分析师确定预测模型版本并捕获元数据后,数据科学家可以使用笔记本环境来测试和验证该模型。然后,当模型做好投产准备时,数据科学家通知开发运维团队——他们可以使用平台的工具持续监控该模型。

5.利用现代治理技术及实践方案

治理——即规定组织应如何保护与管理其数据和分析的规则及策略——对于学习如何信任数据进而转变为数据驱动型企业来说至关重要。但TDWI的研究表明,三分之一的组织根本没有对数据进行治理。相反,许多组织专注于安全和隐私规则。研究还表明,只有不到20%的组织开展了某一类别的分析治理,包括生产中的模型审核与监控。

基于低质量数据或退化后的模型所做出的决策,会对业务产生负面影响。组织中越来越多的人能够访问数据并构建模型,且随着新型数据和技术的相继出现(例如大数据、云和数据流挖掘),数据治理 实践也需要不断发展。TDWI推荐了治理软件的三种功能,可以用来增强你的数据和分析治理:

·数据目录、词汇表和数据词典。这些工具通常包含精细的标记和自动化过程,保证数据目录的生成与持续更新,并从现有数据集中发现元数据。

·数据追溯。将数据追溯与元数据相结合,可帮助组织了解数据源的出处,并跟踪其修改和转换方式 。

·模型管理。持续的模型跟踪对于分析治理来说至关重要。许多工具能够自动执行模型监控,定期升级以使模型保持最新版本,并在模型退化时发送警报。

未来,企业可能会超越传统的治理模型,转而采用敏捷治理、嵌入式治理或众包治理等新方法。但是,使IT和业务部门——包括数据所有者、数据管理员等——参与决策过程,始终是保持数据驱动型企业稳健治理的关键。