数据价值的充分释放能够带来数字经济的爆发式发展,而大数据如何与人工智能完美结合,俨然已成为大数据产业新的探索点。在9月26日数梦工场”数据价值之路”技术峰会暨B轮融资发布会上,数梦工场首席技术官崔晓峰阐述了”数据智能++”的理念、解决方案和最佳实践。
目前业界在应用层AI方面取得了一些进展,实现了”小数据、小智能”;当前在”智能+”时代,数据的复杂度、模型变量的复杂度、业务协同的复杂度和数据安全的复杂度都大幅提升,在海量数据的管理过程中需要通过人工智能技术的加持来结构性解决效率、精准度和多元适配问题。数梦工场认为大数据和人工智能的结合应覆盖全流程、全体系,贯穿数据资产管理和大数据应用的始终。大数据为人工智能的发展提供基础资源,而人工智能的加持使数据资产管理实现智能化。
数梦工场立足于大数据领域的技能和经验,从全局角度创造性地进行融合,强调数据资产管理过程的智能属性,也专注于数据资产管理结果的智能体现。”第一个智能+,就是数据资产管理过程中的智能”,崔晓峰解释道,”数年积累的大数据能力结合人工智能,让数梦工场在数据处理效率和准确性等方面优势尽显,数据资产管理呈现出高效、精准、多元的特点”。
基于元数据在数据接入、数据探查、数据清洗、模型设计与加工等阶段,通过自然语言语义分析和机器学习,构建”元数据”驱动的”数据项和数据标准推荐关联”和”关联后的自动清洗”; 以”元数据”为基础,自动建立全链路数据血缘,进行数据流转分析、属性继承分析和影响分析;以”元数据”和”数据标准”为基础,构建深度学习的数据标准和模型标准,建立起符合预期的数据质量体系,提高数据治理精准度; 以主题库和标签为基础,来承载”专家经验”,支撑行业化数据智能; 在普遍耗时的环节,嵌入 AI 能力,比如智能数据增量同步的自动配置、 智能数据切片、智能去重、智能清洗等环节。通过各个环节的提升,实现数据治理过程的高效、精准和多元。综合人口库超过12000个字段的标准化工作从20人月被优化至1人月,极大地提高了数据标准化的效率。
数据经过治理成为资产后,通过智能评估生成数据质量报告和安全评估报告,并依靠全链路数据风险感知、数据安全堡垒和敏感数据智能发现等技术,进行质量监控、运维保障和安全防护。在保障全生命周期数据安全的同时,数梦工场建立并持续积累了大量具有行业属性的业务标签和模型,让数据资产管理变得更加高效和精准。
“除了过程的智能化,我们还在具体的业务效果上呈现出智能化的特点:可解释、可量化和可迭代”。崔晓峰认为,这正是第二个”智能+”的含义。
人工智能越来越多地用于辅助人类决策和业务创新,用户需要更直观的、更透明的数据智能。数梦工场在自然人大数据实践中,沉淀出大量的模型和标签,生成扶贫专题库,通过数据共享与民政救助应用进行数据联通,进而主动发现贫困户,进行精准扶贫。从标签识别到最终的救助服务,每一步都有迹可循,有理可依,直观而清晰,可拆解、可溯源、可分析。
数据资产管理的结果需要用数据说话,即使是定性的分析,也要有定量的数据做支撑,包括数据分类分级、各级类目、标准数据元和量化标签等。自提升、自优化是可迭代智能的典型表现,即通过持续不断的反馈和修正,来形成可持续的、愈加精准高效的数据智能。如数梦工场通过可持续优化的行业语义关联推荐引擎,结合丰富的行业实践,使综合人口库数据关联推荐的准确率从60%跃升至98%。在公安领域,数梦工场已沉淀出135组标签,结合精准督察算法,在酒驾督察、扫黑除恶、重点人员预警等实践中,均取得了亮眼的成绩,如秒级获取酒驾督察结果,通过长途客运旅客实名信息管控平台抓获77名在逃人员等,获得了客户的一致认可,也进一步丰富了公安大数据领域的数据积累。
未来,数梦工场将继续在过程智能和结果智能上深入耕耘,让数据资产管理的过程更智能,让业务场景的表现更智能,从数据到价值,每一步都畅通无阻。