12月9日, AWS全球机器学习副总裁Swami Sivasubramanian (简称Swami) 在亚马逊re:Invent大会上发表机器学习和人工智能主题演讲,展示了AWS关于人工智能与机器学习的最新全景蓝图,并宣布了一系列新服务和新功能,让机器学习更易用和拓展到更加广阔的使用者、应用场景和行业。这是亚马逊re:Invent大会上的首次机器学习主题演讲。Swami主题演讲中表示,“机器学习是我们这一代人能遇到最具颠覆性的技术之一,目前已经有超过10万客户在使用AWS的机器学习服务,很多客户已经将机器学习用于其核心业务。”
AWS大中华区云服务产品管理总经理顾凡介绍说,“亚马逊利用机器学习技术已经有20多年时间,这是AWS机器学习服务的深厚源泉。AWS在2016年开始发力,在云上提供机器学习服务。当年只发布了三个服务,2017年开始加速,最近三年,每年新增的服务和功能超过200个,为全球人工智能工作者丰富了他们急需的工具集。”
据德勤发布的《全球人工智能发展白皮书》预测,到2025年,世界人工智能市场规模将超过6万亿美元。
面对数字经济的发展机遇,多个国家和地区已将人工智能列为优先发展的国家战略。
2020年11月21日,国家工业信息安全发展研究中心在《2020人工智能与制造业融合发展白皮书》中指出了目前融合存在的诸多难点,其中人才匮乏问题尤为严重。而人社部官网的报道中测算,目前我国人工智能人才的缺口超过500万,国内的供求比例为1:10,供需比例严重失衡。
德勤发布的《全球人工智能发展白皮书》指出,在人工智能众多的分支领域中,机器学习是人工智能的核心研究领域之一。包括89%的人工智能专利申请和40%人工智能范围内的相关专利均为机器学习范畴。
AWS是云计算的引领者,也是机器学习的翘楚。面对机器学习这样一个充满前途的事业,以及当前严重缺乏人才的处境,AWS通过多种方式,采取一系列措施,着重通过技术创新,为机器学习扩圈。
首次推出开箱即用的工业领域机器学习解决方案
扩圈举措之一,是推出开箱即用的解决方案。在re:Invent大会上,AWS发布了五项用于工业领域的机器学习服务,分别是Amazon Monitron、Amazon Lookout for Equipment、AWS Panorama一体机、AWS Panorama SDK和Amazon Lookout for Vision。这是AWS首次推出开箱即用的工业领域机器学习解决方案。
Amazon Monitron和Amazon Lookout for Equipment通过机器学习支持预测性维护。Amazon Monitron面向没有建立传感器网络的客户,提供由传感器、网关和机器学习服务组成的端到端机器监控系统,检测异常并预测何时需要维护工业设备。Amazon Lookout for Equipment面向已经拥有传感器、但不希望自己构建机器学习模型的客户,由AWS为其构建模型并返回预测结果,检测异常设备行为。
AWS Panorama通过计算机视觉改善工业运营和工作场所安全。AWS Panorama一体机是一个硬件设备,将它连接到工业场所的网络中,它就可以自动识别摄像头数据流,与工业摄像头进行交互。AWS Panorama软件开发套件(SDK),方便工业相机制造商在新相机中嵌入计算机视觉功能。
Amazon Lookout for Vision为工业客户提供高精度、低成本的产品质量异常检测解决方案。它通过机器学习技术,每小时可以处理数千张图像,发现产品缺陷和异常。客户可以将摄像头图像批量或实时发送到Amazon Lookout for Vision,找出异常,例如机器部件的裂纹、面板上的凹痕、不规则形状或产品上的颜色错误等。
目前已经使用AWS工业领域机器学习服务的客户和合作伙伴包括Axis、凌华科技、BP、德勤、Fender芬达、GE 医疗和西门子交通等等。
打造包罗万象的工具箱,赋能每一位AI工作者
扩圈举措之二,是打造全面丰富的工具集,用顾凡的话说, right tool for the right job(为每一项工作都提供一个趁手的工具)。AWS提供的机器学习工具集包括三个层面。
工具集的底层,面向那些技术能力超强的客户,希望将人工智能和机器学习作为自己的核心竞争力。AWS为他们提供强大的算力、全面的算力选择、丰富的机器学习框架选择。AWS支持主流的机器学习框架,客户还可以通过容器部署的方式,自带机器学习框架;AWS可以提供基于英伟达、英特尔、AMD、赛灵思等芯片厂商的最新处理器的强大算力,同时还通过自主设计的处理器,极大地降低机器学习的算力成本。
工具集的中间层,面向那些技术能力较强的客户,他们有大量的数据可以进行机器学习模型训练,有一定的算法人才,不要花精力管理基础设施,专注于自己的应用和业务创新。AWS的Amazon SageMaker为他们提供了首个全托管的机器学习集成开发环境,并为这个开发环境不断增加新功能,从数据准备、到模型训练、参数调优与模型迭代、到模型部署、模型质量监控,在整个过程中最大限度地提高他们开展机器学习的效率,降低他们开展机器学习的门槛。
工具集的顶层,面向技术能力相对薄弱的客户,他们有一定的数据,但没有算法人才,他们希望在业务场景中直接引入人工智能。AWS为他们提供开箱即用的人工智能服务,目前已经涵盖机器视觉、语音文字转换、机器对话、文本处理、电商业务、客服、企业内信息搜索、开发与运维、工业AI等方面。
通过这样一个全面的工具集,AWS可以覆盖和赋能所有的人工智能工作者。
拓展到数据库开发者和数据分析师
扩圈举措之三,是将机器学习拓展到数据开发者和数据分析师。数据库开发者、数据分析师这个群体,人数比机器学习开发人员群体大得多,他们没有机器学习的知识和技能,但是不缺少机器学习的想法。于是,AWS将机器学习能力跟数据库进行嫁接,让数据库开发者、数据分析师沿用数据库查询的方式,让他们的机器学习想法落地到业务应用中。Amazon Aurora是AWS著名的关系型数据库服务,AWS针对Aurora推出了新功能Amazon Aurora ML。数据库开发者发起数据库查询(SQL)时,只要选择一个机器学习模型,就会唤醒机器学习服务,Aurora ML自动将查询结果交给机器学习模型进行推理,返回结果。例如,要查询一个客户评价是正面还是负面,数据库开发者只管做数据库查询、选择这个模型,返回来的查询结果就会自动附加正面或负面判断。类似地,出海电商想把数据库中的商品信息变成多语种,数据库开发者只管查询商品信息、选择多语种翻译,返回的结果就会自动包含商品信息的多语种翻译。
Amazon Athena是数据分析师经常用到的服务。通过这项服务,可以直接从Amazon S3上的对象文件中,利用SQL语句进行数据查询(SQL是结构化查询语言,原本用于关系型数据查询,而S3的对象文件不是关系型数据)。AWS也推出了新功能Amazon Athena ML,查询返回的结果也可以自动附带机器学习推理的结果。
Amazon Redshift是云原生的数据仓库。AWS推出的新功能Amazon Redshift ML,甚至把选择模型这一步省了。举一个例子,电商领域经常会哪些客户有可能流失,这时你可能并没有一个模型来判断什么样特征的客户有可能会流失。通过Redshift ML,数据分析师只管SQL查询,Redshift ML可以把数据导入S3,然后SageMaker的Autopilot功能结合。Autopilot是一个自动建模的功能。这样的Redshift ML可以自动进行数据清洗、模型训练,选择最优的模型进行预测。
Amazon Neptune是AWS的一个图数据库,主要用于知识图谱、身份图谱、欺诈检测、推荐引擎、社交关系、生命科学等场景,用图的方式表示各个数据实体之间的关系,例如,好友关系图。对图数据库,只是表示出数据的相关性显然不够,用户更需要的是,根据这些相关性进行机器学习推理。新功能Neptune ML,就是将图数据库和机器学习打通,通过机器学习模型去访图数据库,进行更精准的预测。
Amazon QuickSight是AWS的一个商业智能(BI)服务,可以轻松地调用各种数据进行分析和展现。AWS于2020年5月推出了QuickSight ML新功能,它也跟SageMaker的Autopilot功能进行了结合,数据分析人员可以用它开展欺诈检测、销售预测等工作。
在今年的re:Invent大会上,AWS推出了更酷的机器学习新功能QuickSight Q。通过它,可以用自然语言对数据进行提问,获得想要的数据洞察。例如,直接在查询框中输入“我们的同比增长率是多少?”几秒钟之内就可以得到高度准确的答案。如果按以往的方式,需要在模型中预先定义增长率、更新模型、处理数据,可能需要几天甚至几周时间。
AWS还推出了Amazon Lookout For Metrics,它利用机器学习技术,通过企业多种数据的比对,检测出数据异常。顾凡举例说,一件商品的售价200元,在某个数据源变成了20元。通过Amazon Lookout For Metrics找出这种异常数据,意义重大。如果是在线销售中出现这样的价格错误,有可能给企业带来巨大的损失。
此外,AWS还发布了利用机器学习的运维服务Amazon DevOps Guru,它可以帮助应用开发人员自动检测运维操作的问题,给出建议补救措施,提高应用程序可用性。此前,AWS已经推出了Amazon CodeGuru,可以让开发人员使用机器学习自动进行代码审核,并且提供指导和建议。
Amazon SageMaker再添九项新功能,快上加快,简单再简单
扩圈举措之四,大力发展机器学习的中间力量。如前所述,Amazon SageMaker是面向机器学习开发者的一个集成开发环境,是一项全托管的服务。它消除了机器学习过程中每个阶段的挑战,化繁为简,使开发人员和数据科学家能够从根本上更轻松、更快速地构建、训练和部署机器学习模型。Amazon SageMaker的功能也在快速迭代中,过去一年就交付了50多项新功能。在今年的re:Invent大会上,AWS再次发布9项新功能。
(1) Data Wranger,数据特征提取器。Amazon SageMaker Data Wrangler可以简化机器学习的数据准备工作。机器学习训练中有一个重要的工作,称为特征工程,就是从不同来源、格式多样的数据提取数据,形成规范化的数据字段(也称为特征),作为机器学习模型的输入,这项工作非常耗时。通过Data Wrangler,客户可以将各种数据存储中的数据一键导入。Data Wrangler内置了300多个数据转换器,让客户无需编写任何代码,就可以机器学习用到的特征进行规范化、转换和组合。客户可以通过在SageMaker Studio(首个用于机器学习的端到端集成开发环境)中查看这些转换,快速预览和检查这些转换是否符合预期。
(2) Feature Store,数据特征存储库。鉴于有大量的特征需要管理,AWS为Amazon SageMaker推出了一项新功能,名为Feature Store。它一个用于更新、检索和共享机器学习特征的专用库。通过Data Wrangler把特征设计出来以后,可以保存在Feature Store 中,以供重复使用。一组特征会用于不同的模型,被多个开发人员和数据科学家使用,需要有效地跟踪、管理这些特征,及时更新,保持一致性。模型训练和利用模型进行推理(也就是实际运用模型),对特征的使用场景也不同。在训练过程中,模型可以离线、批量地访问特征,使用时间长。而对于推理,通常只用到特征库的一部分,不过需要实时访问,几毫秒内返回预测结果。因此,如何特征库的管理是一件复杂的事儿,Feature Store就用于解决这些问题。
(3) Pipelines,自动化工作流。跟传统编程一样,编排和自动化可以提高机器学习的效率。Amazon SageMaker Pipelines是第一个专为机器学习构建的、方便易用的CI/CD(持续集成和持续交付)服务。
(4) Clarify,模型偏差检测。通过Amazon SageMaker Clarify,开发人员可以方便地检测整个机器学习工作流中的统计偏差,为机器学习模型所做的预测做出解释,识别偏差,清晰描述可能的偏差来源及其严重程度,指导开发人员采取措施减小偏差。
(5) Deep Profiling for Amazon SageMaker Debugger,对模型训练进行剖析。通过Deep Profiling,能够自动监控系统资源利用率,例如 GPU、CPU、网络吞吐量和内存 I/O,对训练过程中的资源瓶颈进行告警,让开发者及时调度资源,更快地训练模型。
(6-7) Distributed Training,大型复杂深度学习模型的分布式训练。AWS提供了两种方法,模型训练拆分到几百、几千个CPU上进行。一个是数据并行引擎,对数据集进行拆分。一个是模型并行引擎,自动剖析、识别分割模型的最佳方式,在多个 GPU上高效分割具有几十亿参数的大型复杂模型。通过对训练进行拆分,Amazon SageMaker可以将训练大型复杂深度学习模型的速度比当前的方法快两倍。
(8) Edge Manager,边缘端模型质量监控和管理。Amazon SageMaker Edge Manager 可以帮助开发人员优化、保护、监控和维护部署在边缘设备集群上的机器学习模型。模型部署到边缘设备以后,仍然需要管理和监控模型,确保它们持续以高精度运行。当模型的准确性随着时间的推移而下降时,开发人员可以重新训练模型,不断提高模型的质量。
(9) JumpStart,快捷起步工具。通过Amazon SageMaker JumpStart,客户可以快速找到跟自己类似的机器学习场景相关信息。新手开发人员可以从多个完整的解决方案进行选择,例如欺诈检测、客户流失预测或时序预测,直接部署到自己的Amazon SageMaker Studio环境中。有一些经验的用户则可以从100多个机器学习模型中选择,快速开始模型构建和训练。
不断丰富的新功能,让Amazon SageMaker备受客户欢迎。它推出短短三年时间,已经有几万家客户在使用,包括3M、ADP、阿斯利康、Avis、拜耳、Bundesliga、Capital One、Cerner、Chick-fil-A、Convoy、达美乐比萨、富达投资、GE医疗、Georgia-Pacific、赫斯特、iFood、iHeartMedia、摩根大通、Intuit、联想、Lyft、国家橄榄球联盟、Nerdwallet、T-Mobile、汤森路透、Vanguard等等。
AWS的系列扩圈之举,背后是AWS对机器学习的雄心。Swami说,15年前他研究生毕业,有幸进入AWS开始云计算事业。如今可以毫无不夸张地说,云计算释放出巨大的力量,帮助各种创业公司和成熟企业取得了巨大的成功。机器学习目前就处于那样的早期阶段。我们从Swami的字里行间可以读出,机器学习就是AWS的下一个金矿。