亚马逊云科技:大数据和机器学习要怎么融合?

在日前的一次媒体沟通会上,亚马逊云科技谈到了大数据和机器学习融合的话题,这是继去年在技术层面提出智能湖仓架构以来,又一次从业务需求层面谈大数据、机器学习等数据技术对企业的价值。

为什么要融合?

首先看现状。越来越多的企业架构数据视为重要资产,同时,数据的价值还没有被充分利用。

面对此情此景,有人提出,企业应该转型成为数据驱动型组织,通过业务产生的数据反向驱动公司战略和执行。

数据驱动型组织前景诱人。福布斯的调研报告显示,数据驱动型的组织收入会增加20%,同时成本会减少30%。

数据驱动型组织离不开两大主角:大数据技术和机器学习技术,企业越发重视这两大主角。

大数据技术要处理大量数据,随着应用场景的丰富,应用规模的不断增长,企业对大数据技术本身的要求也原来越高,比如,对大数据分析的及时性要求越来越高,希望更快得到响应结果,这也从侧面验证了企业看中大数据本身的价值。

新一波的AI技术浪潮下,AI应用的深度和广度不断加深。IDC预计,到2023年,AI系统支出将达到979亿美元,比2019年会增加2.5倍。Gartner预计,到2024年,75%的企业将把机器学习技术真正用于生产,为业务所赋能。

亚马逊云科技大中华区产品部总经理 陈晓建

亚马逊云科技大中华区产品部总经理 陈晓建解释了大数据和机器学习融合的原因,大数据技术的能力是机器学习建模的基础,同时,机器学习能为大数据提供更高的智能,助力业务产生价值。

从技术角度来看,大数据和机器学习的融合确实有必要。

大数据侧重海量数据的采集、清洗、查询等,而机器学习更看重算法优化本身,再好的算法没有高质量的数据支撑也没什么用。

比如,自然语言处理场景中,一个语气词可能会被标注成多个不同语义,如果靠模型来拟合,则会增加模型的复杂度,影响模型精度,而如果通过大数据清洗技术加以处理,则有助于机器学习模型的精度,提高机器学习推理的准确度。

同理,仅靠传统大数据技术无法全方位提供充足的数据见解,仍需要机器学习的模型能力补充,越来越多的数据项目会融合大数据和机器学习两者的能力。

融合面临的挑战和应对之道

大数据和机器学习的融合主要有三方面的挑战:

一方面,主要是管理的挑战。在企业实践中,大数据团队和机器学习技术团队经常属于两个团队。同时,企业普遍存在数据孤岛的问题,要用的数据可能存在于多个不同部门。最后,即使拿到数据,机器学习专家也很难在短时间内理解数据的业务含义。

另一方面,数据处理能力不足的挑战。好的算法离不开大量业务数据的输入和处理,需要不断迭代才能训练出好的模型,否则便不可能达到预期的业务目标,这需要机器学习团队拥有处理海量数据的IT技术架构。

第三方面,数据分析人员参与度低。许多算法模型在开发和测试阶段表现非常好,但实战环节则有较大落差,究其原因在于,开发测试只是真实环境的简单的模拟,而真实环境的复杂度会高很多。

三大挑战之下,大数据和机器学习要如何融合呢?

陈晓建给出了一条实现数智融合的有效途径,他认为,企业在云中要打造统一的数据基础底座,以此来实现大数据和机器学习的“双剑合璧”,为企业发展提供创新引擎。

数据基础底座的功能主要有三方面,第一个,用来实现数据的统一治理,打破各种数据孤岛;第二个,用统一的权限管理实现数据在不同业务之间的流转;第三个,具备统一的开发和流程编排能力,用来提升整体的开发效率。

陈晓建表示,数据基础底座还应该具备三点素质。第一个,灵活弹性的存储和计算能力,灵活满足大量数据计算和存储的需求;第二个,用大数据的能力优化数据质量;第三个,内涵多元的机器学习算法。

另外,陈晓建还提到赋能业务人员的重要性。他认为,技术研发人员和业务人员不应该是割裂的,而应该是合作的关系,而且,很重要的一个趋势是,要将数据技术赋能业务人员,从而提升业务响应速度,好的数据基础底座应该提供帮助。

亚马逊云科技助力企业实现大数据和机器学习融合

亚马逊云科技大中华区产品部技术专家团队总监 王晓野介绍了亚马逊云科技在大数据和机器学习融合方面的优势。

首先,打破数据和技术孤岛方面的优势。数据方面,可以用Amazon Lake Formation来实现数据的共享和权限控制。技术方面,可同时使用Amazon Athena、Amazon EMR、数据仓库Amazon Redshift、机器学习平台Amazon SageMaker等来构建统一的技术开发平台。

在数据处理能力方面,亚马逊云科技除了有标准的计算存储服务,其大数据平台有许多都是基于Serverless来构建的,无需管理底层基础设施即可轻松处理各种规模的数据。而且,旗下的大数据和机器学习技术方案有一个最大的特点,就是很齐全。

赋能业务人员探索创新方面,亚马逊云科技在尽力降低技术的使用门槛。比如,支持通过自然语言来使用机器学习,提供了可视数据准备工具Amazon Glue DataBrew,零代码化的机器学习模型工具 Amazon SageMaker Canvas等服务,让业务人员探索机器学习建模。

王晓野总结了一些企业在大数据和机器学习融合方面的现状。

一些企业的机器学习能力诞生于大数据团队,这类企业喜欢的亚马逊云科技的Amazon EMR,Amazon EMR与开源框架完全兼容,同时,具备灵活扩展的能力。

另一类企业则是从机器学习项目开始的,这类企业最喜欢“智能湖仓”架构里的Amazon SageMaker,用Amazon SageMaker完成从数据标记到模型部署推理的全流程。

还有一类企业,当原本没有技术负担的时候,也可以充分利用大数据与机器学习融合的能力。

淄博热力是一家传统的供暖公司,利用亚马逊云科技端到端大数据与机器学习融合的能力,通过采用Amazon Redshift来实现海量数据的加工处理,通过Amazon SageMaker统一开发的入口,实现了快速迭代开发,两年时间以来,节省了上千万成本,客户投诉量也大大减少。

王晓野还提到了实验环境效果和生产环境效果的问题,他认为这是真实数据在规模和实效性差异引起的,他认为,Amazon Redshift Serverless和Amazon EMR这类Serverless服务会有帮助,它能让用户关注于如何使用数据分析服务,而不用关心底层基础设施。

硅谷银行作为硅谷最大的银行,为超过三万家初创企业提供了种子基金,硅谷银行从大数据入手,先解决了数据和技术互融互通的问题。同时,用Amazon SageMaker去替代了传统机器学习方案,该方案实施一年就节省了4300万美元成本。

宝马集团也实现了大数据和机器学习的融合,打破了数据和技术孤岛,同时,还使用Amazon SageMaker Canvas以及Amazon SageMaker提供的自动机器学习的能力,让业务人员能够自主式的取得数据,并自助进行机器学习训练。

IDC中国助理研究总监卢言霞表示:“根据IDC 2022年中国人工智能及自动化市场的十大预测,人工智能将无处不在。到2022年,60%的中国1000强公司将在所有关键业务的横向职能中扩大使用AI/ML,如营销、法务、人力资源、采购和供应链、物流等。由于机器学习更加依赖算力、算法、数据,人工智能的快速发展拉动了对AI基础数据服务的需求,预计在未来几年内将稳步增长。在大数据与机器学习领域,亚马逊云科技提供广泛而深入的服务,通过云、数、智深度融合迎合市场需求,能够降低更多行业用户上云用数赋智的门槛,更好地开展云上数智融合之旅。”

我们能看到,部分企业借助云计算已经实现了大数据和机器学习的融合,希望本文对于希望了解和探索大数据和机器学习的朋友有所帮助。