近十几年来,机器学习领域的发展突飞猛进,已成为人工智能最具智能特征的前沿领域之一。随着大数据时代各行业对数据分析需求的持续增加,数据的体量有了前所未有的增长,新的数据种类也在不断涌现,机器学习越来越朝着智能数据分析的方向发展。
作为处理复杂信息的有效手段,图数据科学有着出人意料的悠久历史:早在18世纪,数学天才Leonhard Euler首次提出了这一概念。最近,随着 Google 使用基于图的页面排名方法从而彻底改变了搜索,图数据科学也由此变得尤为重要。
现在,图技术不再是拥有内部专业知识和资源的网络先锋公司的独门秘籍。过去,拥有训练有素的研发团队的领先公司才具有处理大量关联数据的能力。时至今日,任何重视挖掘数据价值的组织都可以使用这种强大的创新技术,通过独特的算法和嵌入来发现数据之间的关联。
基于图的数据工作正迅速成为业务主流。作为企业数据科学家工具箱的核心部分,图数据科学将成为未来十年的重要特征。Gartner在《2021十大数据与分析技术趋势》报告中指出:“到 2025 年,图技术将用于 80%数据与分析的创新,这一数据高于2021年的10%,图技术将会促进整个组织的快速决策。”
Gartner 此前还就人工智能和机器学习技术的使用情况对一些公司展开了调查。高达92%的受访者表示他们计划在五年内采用图技术。而专注于该领域的学术研究也在不断增加,近年来超过28,000篇关于图驱动数据科学的同行评审科学论文被发表。
利用关联进行更准确和可判断的预测
企业采用图数据科学的步伐正在加快。图数据科学是一种强大的创新技术,可以通过图算法来推理每条数据关联情境的“形状”。
为什么开发人员想要了解这个?这是因为图数据科学能够实现更卓越、更丰富的机器学习预测。图数据科学正在彻底改变企业在不同场景下进行预测的方法,从欺诈检测到追踪客户或患者,通过利用数据节点之间的关联实现更准确和可判断的预测。在药物发明用例中,意味着可找到基因、疾病、药物和蛋白质之间可能存在的新关联,同时提供相邻的上下文来评估任何此类发现的相关性或有效性。对于客户推荐而言,则意味着从客户旅程中学习,为未来的购买做出精准推荐,并通过展示历史购买记录,建立相关推荐的信心。
这种从数据中快速“学习”泛化、预测性特征的能力,使企业将机器学习提升到全新水平。虽然一些团队仍在学习如何在现有机器学习工作流程中利用关联数据,但现实中的用例数量正在迅速增长。图技术采用者发现,从支持行业领域专家发现模式的查询到识别高价值特征以训练机器学习模型,图技术让他们如虎添翼。
新兴的图技术成功案例
让我们来看看以上趋势的一些案例。在欧洲,相关政府部门目前已经在使用图数据科学,数据科学家也已部署借助图技术构建的首个机器学习模型。生成的系统会根据用户访问的页面,自动向其推荐来自政府在线资源的内容。该应用程序可显示节点的连续特征,并将其用于各种机器学习任务,例如内容推荐。
政府数据科学家指出,“通过这个过程,我们了解到创建支持模型训练和部署的基础数据是最耗时的部分。” 在图数据库生态系统的另一领域,来自领先的媒体和营销服务公司Meredith的高级数据科学家指出,图算法的使用允许将数十亿页面浏览量转换为具有丰富浏览配置文件的数百万假名标识符:“向没有进行身份验证的在线用户提供相关内容,对我们的业务至关重要……我们现在不再是’在黑暗中做广告’,而是更好地了解客户,这将不仅显著增加营收而且为消费者提供更优质的服务。”
图数据科学也可以为医疗供应链提供支持。全球医疗设备制造商波士顿科学公司 (Boston Scientific) 使用图数据科学查找产品的故障原因。在这个案例中,位于不同国家和地区的多个团队通常要联手并行处理相同的问题,工程师必须分析不同电子表格中的数据。这会产生不一致并且难以找到问题的根本原因。波士顿科学公司表示,转向使用图技术为分析、协调和改进跨公司所有地区的制造流程提供了一种更有效的方法。
现在,用户可以进行有意义的科学增强型数据搜索。分析查询时间从两分钟缩短到10至55秒,这一提升有助于提高整体效率并简化分析过程。可以识别更可能发生故障的特定环节。另一个好处是,图数据模型非常简单,更便于交流。“参与该项目的每个人,从商业利益相关者到技术实施者,都能够相互理解,因为他们都说同一种语言,”该公司的数据科学家Eric Wespi 表示。该公司通过使用自然语言处理详细分析检查失败的原始文本,提取和关联主题以调查失败的根本原因,从而产生更高的商业价值。
在国际制造业领导者卡特彼勒 (Caterpillar) 公司,图数据科学能够让存储维修技术文档的大型数据库的自然语言处理变得更加有效。当面临需在超过2700万份文档中捕获到有价值的数据但却无法访问时,公司开始着手创建一个能够揭示内在联系和趋势的处理工具。基于图的机器学习分类工具应运而生,从已标注“原因”或“投诉”等术语的数据部分中学习,从而应用于其他数据。它自己解析文本并快速找到模式和连接,构建层次结构并添加本体。
增强洞察力
图数据科学应用的另一个案例是在医疗保健领域。纽约长老会医院 (New York-Presbyterian Hospital) 的分析团队使用图技术来跟踪感染并采取战略部署控制感染。其开发人员发现,图数据科学为他们提供了一种灵活的方式,可连接事件的所有维度——事件发生的“内容”、“时间”和“地点”。凭借这种洞察力,该团队创建了一个“时间”和“空间”树,搭建现场治疗所有病房患者的模型。这个初始模型揭示了大量的相互关系,但仅此而已并不能满足项目目标的要求。通过一个事件实体来连接时间树和位置树,由此产生的数据模型意味着分析团队能够分析模型中发生的一切,并在疾病传播之前主动识别和控制疾病。
无可争议的是2021年后图数据科学将成为业务分析的关键部分,并提供有益的业务洞察力。Gartner的数据行业团队预测,全球财富1000强公司中有四分之一将在三年内将图技术列为高级数据处理和分析的计划之中。
毫无疑问,图数据科学的应用已经远远超越了18世纪,进入到商业领域。是时候发掘图数据科学的巨大潜力来为商业问题提供解决方案。作为图数据科学的先行者和领导者,Neo4j已帮助众多机构和组织通过图数据科学加速机器学习向智能分析的发展,以做出推动业务增长的预测。
本文作者:Neo4j数据科学首席产品经理 Alicia Frame